Key points are not available for this paper at this time.
要約 プロテインリガンド相互作用(PLI)は、小分子医薬品設計の基礎となります。計算手法が実験的精度を目指す中で、よくキュレーションされた多様なPLIデータセットの需要が高まっています。既存のデータセットはしばしばサイズと多様性に制限があり、一般的に使用される評価セットはトレーニング情報の漏洩があり、方法の一般化能力の現実的な評価を妨げています。これらの欠点に対処するために、449,383のPLIシステムから成る、これまでで最大かつ最も注釈が付けられたデータセットPLIN-DERを提示します。各システムには500以上の注釈、プロテイン、ポケット、相互作用、リガンドレベルでの類似メトリック、そしてペアの非結合(アポ)構造と予測構造が含まれています。タスク特有の漏洩を最小限に抑え、テストセットの質を最大限に高めるトレーニングと評価の分割を生成するアプローチを提案し、異なる種類の分割で再トレーニングしたDiffDockの結果を比較します。
Durairaj et al. (Wed,) はこの問題を研究しました。