Key points are not available for this paper at this time.
Alors que les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans diverses tâches de traitement du langage naturel en acquérant une riche connaissance factuelle à partir de leurs vastes données d'entraînement, leur aptitude à synthétiser et raisonner logiquement avec ces connaissances de manière complexe reste peu explorée. Dans ce travail, nous présentons une évaluation systématique des capacités de raisonnement logique complexe des LLMs de pointe via un nouveau benchmark de questions de raisonnement complexe générées automatiquement sur des graphes de connaissances de domaines généraux et biomédicaux. Nos expériences approfondies, employant diverses techniques d’apprentissage en contexte, révèlent que les LLMs excellent dans le raisonnement sur les connaissances générales du monde, mais rencontrent des difficultés significatives avec les connaissances spécialisées propres à un domaine. Nous constatons que l’utilisation de démonstrations explicites de Chain-of-Thought peut améliorer substantiellement les performances des LLMs sur des tâches de raisonnement logique complexe comportant diverses opérations logiques. Fait intéressant, nos évaluations contrôlées mettent au jour une asymétrie où les LLMs montrent une compétence dans les opérations d’union d’ensembles, mais ont beaucoup de mal avec les intersections d’ensembles – un élément clé du raisonnement logique. Pour encourager des travaux futurs, nous publierons publiquement notre benchmark d’évaluation et le code.
Zheng et al. (Tue,) ont étudié cette question.