Key points are not available for this paper at this time.
自动化基因组注释的计算方法对我们社区充分利用正在生成和发布的大量基因组序列至关重要。为了探索这些自动化特征预测工具在高等生物基因组中的准确性,我们评估了它们在果蝇 Adh 区域一个大型、经过充分特征描述的序列重叠体上的表现。这个实验,被称为基因组注释评估项目 (GASP),于1999年5月启动。12个应用最先进工具的小组提供了关于特征的预测,包括基因结构、蛋白质同源性、启动子位点和重复元素。我们使用两个标准评估这些预测,一个基于之前未发布的高质量全长cDNA序列,另一个基于果蝇专家小组对该区域深入研究生成的注释集。虽然这些标准集仅近似该区域特征的未知分布,但我们相信在上下文中考虑时,基于这些标准的评估结果是有意义的。结果在1999年8月的分子生物学智能系统会议 (ISMB-99) 上作为教程进行了展示。该区域超过95%的编码核苷酸被大多数基因查找工具正确识别,超过40%的基因的内含子/外显子结构被正确预测。基于同源性的注释技术识别并将功能关联到该区域近一半的基因,其余的仅通过自发性技术识别。此实验还首次评估了一大块连续区域中较多基因的启动子预测技术。我们发现,启动子预测工具的高假阳性率使其预测难以使用。将基因查找和cDNA/EST比对与启动子预测相结合,可以减少假阳性分类的数量,但发现的区域内的启动子不到三分之一。我们相信,通过建立基因组注释评估标准以及评估现有自动化基因组注释工具的表现,本实验建立了一个基线,有助于持续的大规模注释项目的价值,并应引导基因组信息学的进一步研究。
Reese 等人 (Sat,) 研究了这个问题。