Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) sont très efficaces dans diverses tâches de traitement du langage naturel (NLP). Cependant, ils sont susceptibles de produire des conjectures peu fiables dans des contextes ambigus appelés hallucinations. Cet article présente une nouvelle méthode pour évaluer les hallucinations des LLM dans le cadre de la question-réponse (QA) basée sur le problème mathématique mots sans réponse (MWP). Pour soutenir cette approche, nous développons de manière innovante un ensemble de données appelé Problème Mathématique Mots Sans Réponse (UMWP) qui comprend 5200 questions réparties sur cinq catégories. Nous avons développé une méthodologie d'évaluation combinant la similarité textuelle et la détection d'expressions mathématiques pour déterminer si le LLM considère la question comme sans réponse. Les résultats d'expériences approfondies menées sur 31 LLM, y compris GPT-3, InstructGPT, LLaMA et Claude, montrent que l'apprentissage contextuel et l'apprentissage par renforcement avec retour humain (RLHF) améliorent considérablement la capacité du modèle à éviter les hallucinations. Nous montrons que l'utilisation du MWP est une approche fiable et efficace pour évaluer les hallucinations. Notre code et nos données sont disponibles sur https://github.com/Yuki-Asuuna/UMWP.
Sun et al. (Wed,) ont étudié cette question.