Le problème des documents non jugés, où les collections de tests groupées ont des jugements de pertinence incomplets pour évaluer de nouveaux systèmes de récupération, constitue un obstacle majeur à la réutilisabilité des collections de tests en récupération d'information. Bien que la norme de facto pour traiter ce problème soit de considérer les documents non jugés comme non pertinents, de nombreuses alternatives ont été proposées, y compris l'utilisation de grands modèles linguistiques (LLMs) comme juge de pertinence (LLM-comme-juge). Cependant, cela a été critiqué comme étant circulaire, puisque le même LLM peut être utilisé à la fois comme juge et comme classificateur. Nous proposons plutôt de former des classificateurs de pertinence spécifiques au sujet : En ajustant monoT5 avec une adaptation de poids LoRA indépendante sur les jugements d'un seul évaluateur pour l'ensemble d'un seul sujet, nous l'alignons sur la notion de pertinence de cet évaluateur pour le sujet. Les classements systématiques obtenus grâce aux jugements de pertinence de notre classificateur atteignent une corrélation de Spearman ρ >0,95 avec les classements systématiques de vérité terrain. À peine 128 jugements humains initiaux par sujet suffisent à améliorer la comparabilité des modèles, par rapport à traiter les documents non jugés comme non pertinents, tout en atteignant plus de fiabilité que les approches existantes de LLM-comme-juge. Les classificateurs de pertinence spécifiques au sujet sont donc une méthode légère et directe pour s'attaquer au problème des documents non jugés, tout en maintenant les jugements humains comme la norme d'or pour l'évaluation de récupération. Le code, les modèles et les données sont mis à disposition de manière ouverte.
Gienapp et al. (Mon,) ont étudié cette question.