April 13, 2020Open Access

LIT-PCBA: 기계 학습 및 가상 스크리닝을 위한 편향 없는 데이터 세트

Key Points

Key points are not available for this paper at this time.

Abstract

가상 스크리닝 방법의 비교 평가는 다양한, 현실적인, 그리고 편향 없는 데이터 세트에 대한 엄격한 벤치마킹 절차를 필요로 합니다. 최근 여러 연구 그룹의 조사 결과는 공동체에서 전통적으로 사용해 온 인공적으로 구성된 리간드 세트(예: DUD, DUD-E, MUV)가 명백한 화학적 편향과 숨겨진 화학적 편향에 의해 불행히도 편향되어 있어, 가상 스크리닝 방법의 실제 정확성을 과대 평가하고 있음을 분명히 보여줍니다. 우리는 가상 스크리닝과 기계 학습을 위해 특별히 설계된 새로운 데이터 세트(LIT-PCBA)를 여기 제시합니다. LIT-PCBA는 추가적으로 잘못된 양성 및 검사 아티팩트를 제거하고 활성 및 비활성 화합물이 유사한 분자 속성 범위 내에 있도록 처리된 149개의 용량-반응 PubChem 생물측정을 기반으로 합니다. 데이터 세트가 리간드 기반 및 구조 기반 가상 스크리닝 모두에 적합한지 확인하기 위해, 타겟 세트는 동일한 표현형(예: 억제제, 역작용제)의 리간드와 복합체를 이루는 최소한 하나의 X선 구조가 사용 가능한 단일 단백질 타겟으로 제한되었습니다. 최신 고차원 방법(2D 지문 유사성, 3D 형태 유사성, 분자 도킹)을 이용한 나머지 21개 타겟 세트에 대한 초기 가상 스크리닝을 통해 진정한 활성 물질에서 상위 1%로 랭크된 화합물을 최소 2배 이상 풍부하게 할 수 있는 세 가지 스크리닝 방법 중 하나를 사용할 수 있는 15개의 타겟 세트를 선정할 수 있었습니다. 해당 리간드 세트(훈련, 검증)는 최근 설명된 비대칭 검증 삽입(AVE) 절차에 의해 최종적으로 편향되지 않아, 15개의 타겟 및 7844개의 확인된 활성 화합물과 407,381개의 확인된 비활성 화합물로 구성된 LIT-PCBA 데이터 세트를 제공합니다. 이 데이터 세트는 히트율(활성 화합물 대 비활성 화합물의 비율) 및 효능 분포 측면에서 실험적 스크리닝 덱을 모방합니다. 이 데이터 세트는 http://drugdesign.unistra.fr/LIT-PCBA에서 다운로드 가능하며, 특히 기계 학습에 의존하는 새로운 가상 스크리닝 방법을 벤치마킹하는 데 사용됩니다.

LIT-PCBA: 기계 학습 및 가상 스크리닝을 위한 편향 없는 데이터 세트

Key Points

Abstract

Cite This Study