Key points are not available for this paper at this time.
Les modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes dans les tâches de traitement du langage naturel en tirant parti de la chaîne de pensée (CoT) qui permet une réflexion étape par étape. L'extension des LLMs avec des capacités multimodales suscite un intérêt récent, mais entraîne un coût computationnel et nécessite des ressources matérielles substantielles. Pour relever ces défis, nous proposons KAM-CoT, un cadre qui intègre le raisonnement CoT, les graphes de connaissances (KGs) et plusieurs modalités pour une compréhension complète des tâches multimodales. KAM-CoT adopte un processus d'entraînement en deux étapes avec un ancrage KG pour générer des explications et des réponses efficaces. En incorporant des connaissances externes provenant des KGs pendant le raisonnement, le modèle acquiert une compréhension contextuelle plus profonde, réduisant les hallucinations et améliorant la qualité des réponses. Ce raisonnement CoT augmenté par la connaissance permet au modèle de traiter des questions nécessitant un contexte externe, fournissant des réponses plus informées. Les résultats expérimentaux montrent que KAM-CoT surpasse les méthodes de pointe. Sur le jeu de données ScienceQA, nous atteignons une précision moyenne de 93,87 %, surpassant GPT-3.5 (75,17 %) de 18 % et GPT-4 (83,99 %) de 10 %. De manière remarquable, KAM-CoT obtient ces résultats avec seulement 280 millions de paramètres trainables à la fois, démontrant son efficacité en termes de coût et d'efficacité.
Mondal et al. (Sun,) ont étudié cette question.