Key points are not available for this paper at this time.
CRISPR/Cas9システムは、幅広い遺伝子編集アプリケーションに広く使用されています。この編集技術は、ターゲット領域において非常に正確ですが、多くの計画外のオフターゲットサイト(OTS)が存在する可能性があります。その結果、ガイドRNAと参照ゲノムを与えられた場合のオフターゲット切断部位を予測するために、多くの計算的方法が開発されました。しかし、これらの方法は、OTSを低信号対雑音比で検出する実験技術によって生成された小規模データセット(OTSは数十から数百のみ)に基づいています。最近、OTSを検出するための新しいin vitro実験技術であるCHANGE-seqが、前例のない規模と品質のデータセット(110のガイドRNAに対して>200,000 OTS)を生成するために使用されました。さらに、同じ研究は58のガイドRNAのin cellula GUIDE-seq実験も含まれています。ここでは、これらのデータを利用してCRISPR OTSs予測問題のデータ処理と定式化を体系的に評価することで、以前の計算方法のギャップを埋めます。我々の評価は、モデル学習の前の前処理段階としてデータ変換が重要であることを示しています。さらに、トレーニングデータセットに潜在的な非活性OTSを追加することで得られる改善を示します。さらに、我々の結果は、ガイドRNAとそのOTSとの間のミスマッチ数を特徴量として追加する重要性を示唆しています。最後に、in vitroおよびin cellulaデータに基づいた予測オフターゲットin cellulaモデルを提示し、真のOTSを予測する最先端の方法と比較します。我々の結論は、高スループットデータセットに基づいたオフターゲット予測器の将来の開発において重要な役割を果たすでしょう。
Yaishら(木曜日)はこの質問を研究しました。