August 19, 2024Open Access

Apprentissage de la représentation graphique moléculaire intégrant de grands modèles de langage et de petits modèles spécifiques au domaine

Key Points

Key points are not available for this paper at this time.

Abstract

La prédiction des propriétés moléculaires est une base cruciale pour la découverte de médicaments. Ces dernières années, les modèles d'apprentissage profond pré-entraînés ont été largement appliqués à cette tâche. Certaines approches qui intègrent des connaissances biologiques antérieures dans le cadre de pré-entraînement ont obtenu des résultats impressionnants. Cependant, ces méthodes s'appuient fortement sur des experts en biochimie, et la récupération et le résumé de vastes quantités de littérature sur les connaissances du domaine sont à la fois chronophages et coûteux. Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans la compréhension et la fourniture efficace de connaissances générales. Néanmoins, ils présentent parfois des hallucinations et manquent de précision dans la génération de connaissances spécifiques au domaine. En revanche, les petits modèles spécifiques au domaine (DSMs) possèdent une riche connaissance du domaine et peuvent calculer avec précision les métriques liées au domaine moléculaire. Cependant, en raison de leur taille de modèle limitée et de leur fonctionnalité unique, ils manquent de la profondeur des connaissances nécessaires à un apprentissage de représentation complet. Pour tirer parti des avantages des deux approches dans la prédiction des propriétés moléculaires, nous proposons un nouveau cadre d'apprentissage de représentation graphique moléculaire (MolGraph-LarDo) qui intègre de grands modèles de langage et de petits modèles spécifiques au domaine. Techniquement, nous concevons une stratégie de prompt en deux étapes où les DSMs sont introduits pour calibrer les connaissances fournies par les LLMs, améliorant ainsi l'exactitude des informations spécifiques au domaine et permettant aux LLMs de générer des descriptions textuelles plus précises pour des échantillons moléculaires. Par la suite, nous utilisons une méthode d'alignement multimodal pour coordonner diverses modalités, y compris les graphiques moléculaires et leurs textes descriptifs correspondants, afin de guider le pré-entraînement des représentations moléculaires. D'importantes expériences démontrent l'efficacité de la méthode proposée.

Apprentissage de la représentation graphique moléculaire intégrant de grands modèles de langage et de petits modèles spécifiques au domaine

Key Points

Abstract

Cite This Study