Key points are not available for this paper at this time.
ゲノムは、全生物の機能を調整するDNA、RNA、およびタンパク質を完全にコードするシーケンスです。機械学習の進歩と全ゲノムの大規模データセットの組み合わせにより、複雑な分子相互作用の機械的理解と生成デザインを加速する生物学的基盤モデルが可能になるかもしれません。私たちは、分子からゲノムスケールまでの予測および生成タスクを可能にするゲノム基盤モデルEvoを報告します。深層信号処理の進歩に基づくアーキテクチャを使用して、Evoを70億パラメータにスケールアップし、コンテキスト長は131キロベース(kb)でシングルヌクレオチドのバイト解像度を持っています。全原核生物ゲノムで訓練されたEvoは、分子生物学の中心教義の3つの基本的なモダリティ間で一般化でき、ゼロショット機能予測を行うことができ、これは先行のドメイン特化型言語モデルに匹敵するか、それを上回ります。Evoはまた、合成CRISPR-Cas分子複合体や全体の転移可能システムを初めて生成することによって示すように、マルチエレメント生成タスクに優れています。全ゲノムから学んだ情報を使用して、Evoはヌクレオチド解像度で遺伝子の重要性を予測し、以前の手法よりも桁違いに長い最大650 kbのコーディングリッチなシーケンスを生成できます。Evoによるマルチモーダルおよびマルチスケール学習の進展は、さまざまな複雑性のレベルで生物学の理解と制御を向上させるための有望な道を提供します。
Nguyen et al. (火曜日)はこの問題を研究しました。