Key points are not available for this paper at this time.
Assurer que les grands modèles de langage (LLM) reflètent les valeurs et préférences diverses des utilisateurs est crucial à mesure que leur base d'utilisateurs s'étend à l'échelle mondiale. Il est donc encourageant de constater l'intérêt croissant pour la personnalisation des LLM au sein de la communauté de recherche. Cependant, les travaux actuels reposent souvent sur l'approche du LLM-comme-juge pour l'évaluation sans examiner rigoureusement sa validité. Dans cet article, nous étudions la fiabilité du LLM-comme-juge-personnalisé, en demandant aux LLM de juger les préférences des utilisateurs en fonction de personas. Nos résultats suggèrent que l'application directe du LLM-comme-juge-personnalisé est moins fiable qu'on ne le supposait, montrant un faible et inconsistant accord avec la vérité terrain humaine. Les personas généralement utilisés sont souvent trop simplistes, ce qui entraîne une faible puissance prédictive. Pour remédier à ces problèmes, nous introduisons une estimation verbale de l'incertitude dans le pipeline du LLM-comme-juge-personnalisé, permettant au modèle d'exprimer une faible confiance sur des jugements incertains. Cet ajustement conduit à un accord beaucoup plus élevé (au-dessus de 80 %) sur les échantillons à haute certitude pour les tâches binaires. Grâce à une évaluation humaine, nous constatons que le LLM-comme-juge-personnalisé atteint une performance comparable à celle d'évaluateurs humains tiers et dépasse même la performance humaine sur les échantillons à haute certitude. Notre travail indique que le LLM-comme-juge-personnalisé renforcé par la certitude offre une direction prometteuse pour développer des méthodes plus fiables et évolutives pour l'évaluation de la personnalisation des LLM.
Dong et al. (Mon,) ont étudié cette question.