Key points are not available for this paper at this time.
分子エネルギーを予測するための正確で移植可能な機械学習(ML)ポテンシャルの開発は、挑戦的なタスクです。このようなMLポテンシャルを訓練するためのデータ生成プロセスは、十分に理解されていないのものであり、詳細に研究されたこともありません。本研究では、ユニバーサルなMLポテンシャルを訓練するためのデータセット生成の完全自動化されたアプローチを提示します。これは、コミッティによるクエリ(QBC)を介したアクティブラーニング(AL)の概念に基づいており、MLポテンシャルのアンサンブル間の不一致を利用してアンサンブルの予測の信頼性を推定します。QBCにより、提示されたALアルゴリズムは、MLポテンシャルがポテンシャルエネルギーを正確に予測できない化学空間の領域を自動的にサンプリングすることが可能です。ALは、新しい訓練データを使用する際の人間のバイアスを軽減することで、厳密なテストケースにおけるANAKIN-ME(ANI)深層学習ポテンシャルの全体的な適合性を向上させます。ALはまた、ナイーブなランダムサンプリング技術を使用した場合に必要なデータのわずかな部分に訓練セットサイズを縮小します。私たちのALアプローチの検証を提供するために、多様な有機分子のセットを含むCOmprehensive Machine-learning Potential (COMP6) ベンチマーク(GitHubで公開)を開発しました。アクティブラーニングに基づくANIポテンシャルは、データのわずか10%で元のランダムサンプリングされたANI-1ポテンシャルを上回りますが、最終的なアクティブラーニングベースのモデルは、データのわずか25%でCOMP6ベンチマークに対してANI-1を大幅に上回ります。最後に、提案されたAL技術が、COMP6ベンチマーク全体にわたって正確なエネルギーおよび力の予測を提供するユニバーサルANIポテンシャル(ANI-1x)を開発することを示します。このユニバーサルMLポテンシャルは、単一の分子または材料に対する最良のMLポテンシャルと同等の精度を実現し、CHNO元素から構成される一般的な有機分子のクラスに適用可能であり続けます。
Smith et al. (Tue,) はこの問題を研究しました。