What question did this study set out to answer?

L'objectif est d'optimiser à la fois la génération d'explications et la notation pour la similarité textuelle sémantique conditionnelle (C-STS).

February 14, 2026

Identification guidée par le score des explications optimales pour la similarité textuelle conditionnelle

Key Points

L'objectif est d'optimiser à la fois la génération d'explications et la notation pour la similarité textuelle sémantique conditionnelle (C-STS).
Développement d'un mécanisme de sélection d'explications guidé par le score.
Exploitation d'explications générées par LLM comme entrées candidates.
Optimisation conjointe de la génération d'explications et de la notation en utilisant un LLM léger affiné.
Évaluation des explications candidates selon le modèle de notation entraîné.
Amélioration d'environ 9 % de l'estimation de similarité par rapport aux encodeurs statiques comme SimCSE.
Identification d'explications pouvant donner jusqu'à 38 % de corrélation supplémentaire, indiquant une limite supérieure pour la notation.
Validation de l'efficacité du filtrage inverse dans la notation guidée par l'explication.

Abstract

La similarité textuelle sémantique conditionnelle (C-STS) évalue la similarité sémantique entre deux phrases sous une condition donnée. Les méthodes récentes négligent souvent l'ambiguïté inhérente des critères de notation annotés par des humains. Cette recherche fait l'hypothèse que les annotations C-STS reflètent une combinaison d'instructions explicites et de normes de notation latentes et implicites. Contrairement aux approches antérieures sensibles à l'explication qui traitent la génération d'explications et la notation comme des étapes indépendantes, ce travail optimise conjointement les deux en utilisant des explications générées par des LLM comme entrées candidates et en sélectionnant les plus pertinentes via un évaluateur LLM léger et affiné. Ce design aborde les limitations inhérentes des LLM à usage général dans les tâches de notation subjective tout en maintenant l'adaptabilité et l'efficacité computationnelle. De plus, un mécanisme de sélection d'explications guidé par le score, qui identifie les explications optimales, est introduit en évaluant rétroactivement les explications candidates selon le modèle de notation entraîné. Les expériences sur le jeu de données C-STS montrent une amélioration de l'estimation de similarité d'environ 9 % par rapport aux encodeurs statiques comme SimCSE. De plus, le processus de sélection révèle l'existence d'explications qui pourraient théoriquement donner jusqu'à 38 % de corrélation supplémentaire, indiquant la limite supérieure latente de la notation guidée par l'explication et validant le potentiel du filtrage inverse. Ces résultats soulignent l'importance de modéliser le raisonnement implicite et démontrent le potentiel des LLM légers dans les tâches d'évaluation sensibles à l'explication. Le code source est disponible dans le lien suivant. 1

Bookmark

Identification guidée par le score des explications optimales pour la similarité textuelle conditionnelle

Key Points

Abstract

Cite This Study