Key points are not available for this paper at this time.
Les modèles de langage large (LLMs) excellent dans diverses tâches de traitement du langage naturel (NLP), mais leur évaluation, en particulier dans les langues au-delà des 20 premières, reste insuffisante en raison des limitations des références et des métriques existantes. L'utilisation des LLMs comme évaluateurs pour classer ou scorer les sorties d'autres modèles émerge comme une solution viable, en répondant aux contraintes liées aux annotateurs humains et aux références établies. Dans cette étude, nous explorons le potentiel des évaluateurs basés sur LLM, en particulier GPT-4, pour améliorer l'évaluation multilingue en les calibrant contre 20K jugements humains à travers trois tâches de génération de texte, cinq métriques et huit langues. Notre analyse révèle un biais des évaluateurs basés sur GPT-4 en faveur de scores plus élevés, soulignant la nécessité d'une calibration avec les jugements de locuteurs natifs, en particulier dans les langues à faible ressources et non écrites en alphabet latin, pour garantir une évaluation précise de la performance des LLM dans diverses langues.
Hada et al. (Thu,) ont étudié cette question.