Key points are not available for this paper at this time.
Molekulares maschinelles Lernen hat sich in den letzten Jahren rasant weiterentwickelt. Verbesserte Methoden und die Verfügbarkeit größerer Datensätze haben es den Algorithmen des maschinellen Lernens ermöglicht, zunehmend genauere Vorhersagen über molekulare Eigenschaften zu treffen. Der algorithmische Fortschritt war jedoch durch den Mangel an einem standardisierten Benchmark, um die Wirksamkeit vorgeschlagener Methoden zu vergleichen, begrenzt; die meisten neuen Algorithmen werden auf unterschiedlichen Datensätzen bewertet, was es schwierig macht, die Qualität der vorgeschlagenen Methoden einzuschätzen. Diese Arbeit stellt MoleculeNet vor, einen groß angelegten Benchmark für molekulares maschinelles Lernen. MoleculeNet kuratiert mehrere öffentliche Datensätze, etabliert Metriken zur Bewertung und bietet hochwertige Open-Source-Implementierungen mehrerer zuvor vorgeschlagener molekularer Merkmals- und Lernalgorithmen (veröffentlicht als Teil der DeepChem-Open-Source-Bibliothek). MoleculeNet-Benchmarks zeigen, dass lernbare Repräsentationen mächtige Werkzeuge für molekulares maschinelles Lernen sind und in der Regel die beste Leistung bieten. Dieser Befund hat jedoch seine Tücken. Lernbare Repräsentationen haben immer noch Schwierigkeiten, mit komplexen Aufgaben bei Datenknappheit und stark unausgewogener Klassifikation umzugehen. Bei quantenmechanischen und biophysikalischen Datensätzen kann die Verwendung von physikbewussten Merkmalsdarstellungen wichtiger sein als die Wahl eines bestimmten Lernalgorithmus.
Wu et al. (Di,) untersuchten diese Frage.