Key points are not available for this paper at this time.
Les approches d'alignement telles que RLHF et DPO sont activement étudiées pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Des grands modèles de langage commerciaux (LLM) comme GPT-4 ont récemment été employés pour évaluer et comparer différentes approches d'alignement de LLM. Ces modèles agissent comme des substituts pour les évaluateurs humains en raison de leurs capacités prometteuses à approcher les préférences humaines avec des retours d'information remarquablement plus rapides et à coûts réduits. Cette méthodologie est appelée LLM-en-tant-que-juge. Cependant, des préoccupations concernant sa fiabilité ont émergé, attribuées aux biais des juges LLM et à une prise de décision inconsistante. Des recherches antérieures ont cherché à développer des cadres d'évaluation robustes pour évaluer la fiabilité des juges LLM et leur alignement avec les préférences humaines. Néanmoins, les métriques d'évaluation utilisées manquent souvent d'explicabilité adéquate et échouent à traiter l'inconsistance interne des LLM. De plus, les études existantes explorent de manière inadéquate l'impact des différents modèles de prompt lors de l'application des méthodes LLM-en-tant-que-juge, ce qui conduit à des comparaisons potentiellement inconsistantes entre les différents algorithmes d'alignement. Dans ce travail, nous évaluons systématiquement les juges LLM sur des tâches d'alignement (par exemple, la synthèse) en définissant des métriques d'évaluation avec une interprétabilité théorique améliorée et en dissociant les métriques de fiabilité de l'inconsistance interne des LLM. Nous développons un cadre pour évaluer, comparer et visualiser la fiabilité et l'alignement des juges LLM afin de fournir des observations informatives qui aident à choisir des juges LLM pour les tâches d'alignement. Nos résultats indiquent un impact significatif des modèles de prompt sur la performance des juges LLM, ainsi qu'un niveau d'alignement médiocre entre les juges LLM testés et les évaluateurs humains.
Wei et al. (ven,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: