Key points are not available for this paper at this time.
Les chatbots constituent une application intéressante de la génération de langage naturel depuis leur création. Avec les nouvelles méthodes d'IA générative basées sur des transformateurs, la création de chatbots est devenue triviale. Les chatbots, ciblant des domaines spécifiques tels que la médecine, la psychologie et la recherche d'informations générales, sont mis en œuvre rapidement. Cela ne devrait toutefois pas distraire de la nécessité d'évaluer les réponses des chatbots. D'autant plus que la communauté de génération de langage naturel ne s'accorde pas entièrement sur la manière d'évaluer efficacement ces applications. Dans ce travail, nous discutons davantage du problème avec les évaluations basées sur LLM de plus en plus populaires et de leur corrélation avec les évaluations humaines. De plus, nous introduisons un mécanisme d'évaluation facturée complet qui peut être utilisé en conjonction avec les évaluations humaines et basées sur les LLM. Nous présentons les résultats d'une évaluation expérimentale réalisée en utilisant ce schéma dans l'une de nos implémentations de chatbot, et comparons ensuite l'évaluation automatisée, l'évaluation humaine traditionnelle, l'évaluation humaine facturée et l'évaluation LLM facturée. Les résultats montrent que l'évaluation basée sur des facteurs produit de meilleures perspectives sur les aspects à améliorer dans les applications LLM et renforce davantage l'argument en faveur de l'utilisation de l'évaluation humaine dans des espaces critiques où la fonctionnalité principale n'est pas une récupération directe.
Abeysinghe et al. (Mercredi), ont étudié cette question.