February 25, 2024Open Access

HypoTermQA : Ensemble de Termes Hypothétiques pour Évaluer la Tendance aux Hallucinations des LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

Les hallucinations représentent un défi significatif pour la fiabilité et l'alignement des Grands Modèles de Langage (LLMs), limitant leur acceptation généralisée au-delà des applications de chatbots. Malgré les efforts en cours, les hallucinations restent un défi courant dans les LLMs. La détection des hallucinations elle-même est également une tâche redoutable, nécessitant souvent un étiquetage manuel ou des évaluations contraintes. Cet article présente un cadre automatisé évolutif qui combine l'évaluation des tendances aux hallucinations des LLMs avec une détection efficace des hallucinations. Nous tirons parti des LLMs pour générer des tâches difficiles liées à des phénomènes hypothétiques, les utilisant ensuite comme agents pour une détection efficace des hallucinations. Le cadre est indépendant du domaine, permettant l'utilisation de tout modèle linguistique pour la création ou l'évaluation de benchmarks dans n'importe quel domaine. Nous introduisons le jeu de données d'évaluation HypoTermQA, sur lequel les performances des modèles à la pointe de la technologie variaient entre 3 % et 11 %, et les agents évaluateurs ont montré un taux d'erreur de 6 % dans la prédiction des hallucinations. Le cadre proposé offre des opportunités pour tester et améliorer les LLMs. De plus, il a le potentiel de générer des jeux de données d'évaluation adaptés à des domaines spécifiques, tels que le droit, la santé et la finance.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Uluoglakci et al. (Sun,) ont étudié cette question.

synapsesocial.com/papers/68e77b35b6db6435876ef91d https://doi.org/https://doi.org/10.48550/arxiv.2402.16211

Bookmark

View Full Paper