Key points are not available for this paper at this time.
Les études précédentes étaient limitées à donner une ou deux tâches aux Modèles de Langage de Grande Taille (LLM) et impliquaient un petit nombre d'évaluateurs dans un seul domaine pour évaluer les réponses du LLM. Nous avons évalué la compétence de quatre LLM en appliquant huit tâches et en évaluant 32 résultats avec 17 évaluateurs provenant de domaines divers, démontrant l'importance des diverses tâches et évaluateurs sur les LLM.
Kim et al. (Jeu,) ont étudié cette question.