What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Les classificateurs spécifiques au sujet sont de meilleurs juges de pertinence que les LLMs sollicités

Key Points

Les classificateurs ont atteint une corrélation de Spearman de plus de 0,95 avec les classements de vérité terrain, démontrant leur précision.
Avec seulement 128 jugements humains initiaux, les classificateurs ont amélioré la comparabilité, surpassant les méthodes LLM-comme-juge.
L'utilisation de monoT5 ajusté avec adaptation LoRA permet un alignement avec la notion spécifique de pertinence des évaluateurs individuels.
Cette approche s'attaque au problème des documents non jugés dans la récupération d'information, tout en maintenant les jugements humains comme la norme d'or.

Abstract

Le problème des documents non jugés, où les collections de tests groupées ont des jugements de pertinence incomplets pour évaluer de nouveaux systèmes de récupération, constitue un obstacle majeur à la réutilisabilité des collections de tests en récupération d'information. Bien que la norme de facto pour traiter ce problème soit de considérer les documents non jugés comme non pertinents, de nombreuses alternatives ont été proposées, y compris l'utilisation de grands modèles linguistiques (LLMs) comme juge de pertinence (LLM-comme-juge). Cependant, cela a été critiqué comme étant circulaire, puisque le même LLM peut être utilisé à la fois comme juge et comme classificateur. Nous proposons plutôt de former des classificateurs de pertinence spécifiques au sujet : En ajustant monoT5 avec une adaptation de poids LoRA indépendante sur les jugements d'un seul évaluateur pour l'ensemble d'un seul sujet, nous l'alignons sur la notion de pertinence de cet évaluateur pour le sujet. Les classements systématiques obtenus grâce aux jugements de pertinence de notre classificateur atteignent une corrélation de Spearman ρ >0,95 avec les classements systématiques de vérité terrain. À peine 128 jugements humains initiaux par sujet suffisent à améliorer la comparabilité des modèles, par rapport à traiter les documents non jugés comme non pertinents, tout en atteignant plus de fiabilité que les approches existantes de LLM-comme-juge. Les classificateurs de pertinence spécifiques au sujet sont donc une méthode légère et directe pour s'attaquer au problème des documents non jugés, tout en maintenant les jugements humains comme la norme d'or pour l'évaluation de récupération. Le code, les modèles et les données sont mis à disposition de manière ouverte.

Les classificateurs spécifiques au sujet sont de meilleurs juges de pertinence que les LLMs sollicités

Key Points

Abstract

Cite This Study