蛋白质嵌入是一种蛋白质表示形式,它携带着从过滤存储在大型档案中的序列的大量信息中得出的信息。通常,蛋白质通过一个矩阵表示,其中每个残基是一个上下文特定的向量,其维度反映了在大规模序列上通过深度学习算法训练的大型神经网络(变换器)的架构大小。最近引入的一种方法(基于嵌入的对齐,EBA)特别适合于成对嵌入比较,并且正如我们在这里报告的那样,允许在特定约束下检测远缘同源物,包括蛋白质序列长度相似性。多功能蛋白质存在于不同的物种中。然而,特别在人类中,它们的结构和功能注释问题迫在眉睫,因为根据最近的统计数据,它们占人类参考蛋白组的高达50%。在本文中,我们展示了当EBA应用于一组随机选择的多功能人类蛋白质时,在对Swiss-Prot数据库进行聚类程序和严格验证后,检索到的蛋白质是彼此的远缘同源物,并且具有与查询蛋白相似的结构和功能特征。
Vazzana等(周二)研究了这个问题。