Key points are not available for this paper at this time.
分子特性予測は、薬剤発見において不可欠な作業です。ほとんどの計算アプローチは、深層学習技術を用いて新しい分子表現の設計に焦点を当てたり、いくつかの先進モデルと組み合わせたりしています。しかし、研究者たちは大量のラベルなしの分子データ(例:ZINC)の潜在的な利点にあまり注意を払っていません。この作業は、ラベル付きデータのスケールの制限によりますます困難になっています。自然言語処理における事前学習モデルの最近の進展に触発され、薬物分子はある程度言語として自然に見ることができます。本論文では、事前学習モデルBERTをいかにして開発し、分子特性予測のために有用な分子サブ構造情報を抽出するのかを調査します。我々は、分子特性予測のために調整された事前学習BERTモデルと効果的な分子表現を組み合わせた新しいエンドツーエンド深層学習フレームワークMol‐BERTを提案します。具体的には、大規模な予測BERTモデルが、400万のラベルなし薬剤SMILES(つまり、ZINC 15およびChEMBL 27)を使用して分子サブ構造の埋め込みを生成するために事前学習されます。その後、事前学習BERTモデルは、さまざまな分子特性予測タスクにおいてファインチューニングすることができます。提案するMol‐BERTの性能を検証するため、我々は4つの広く使用されている分子データセットに対していくつかの実験を実施しました。従来の最先端のベースラインと比較して、結果は、提案するMol‐BERTが現在の配列ベースの手法を上回り、Tox21、SIDER、ClinToxデータセットにおいてROC‐AUCスコアで少なくとも2%の改善を達成できることを示しています。
Liら(Fri)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: