Key points are not available for this paper at this time.
2019年新型冠状病毒(重新命名为SARS-CoV-2,通常称为COVID-19病毒)已传播至184个国家,确认病例超过150万。这种重大病毒疫情需要尽早阐明病毒基因组序列的分类和起源,以便进行战略规划、控制和治疗。本文识别出一种内源性的COVID-19病毒基因组特征,并利用基于机器学习的无比对方法进行超快速、可扩展和高度准确的整个COVID-19病毒基因组分类。所提出的方法结合了监督机器学习与数字信号处理(MLDSP)进行基因组分析,并通过决策树方法增强机器学习组件,采用Spearman等级相关系数分析结果验证。这些工具用于分析超过5000个独特病毒基因组序列的大数据集,总计6180万个碱基对,包括截至2020年1月27日可用的29个COVID-19病毒序列。我们的结果支持蝙蝠起源的假说,并将COVID-19病毒归类为Sarbecovirus,属于Betacoronavirus。我们的方法实现了对COVID-19病毒序列的100%的准确分类,并在几分钟内使用原始DNA序列数据单独发现超过5000个病毒基因组之间最相关的关系,且不需要任何专业的生物知识、培训、基因或基因组注释。这表明,对于新型病毒和病原体基因组序列,这种无比对的全基因组机器学习方法可以提供可靠的实时分类选项。
Randhawa等(周五)研究了这个问题。