April 29, 2024Open Access

Évaluation des explications basées sur des concepts des modèles linguistiques : une étude sur la fidélité et la lisibilité

Key Points

Key points are not available for this paper at this time.

Abstract

Malgré l'intelligence étonnamment élevée des grands modèles linguistiques (LLMs), nous sommes d'une certaine manière intimidés à l'idée de les déployer pleinement dans des applications réelles en raison de leur nature opaque. Les explications basées sur des concepts émergent comme une avenue prometteuse pour expliquer ce que les LLMs ont appris, les rendant plus transparents pour les humains. Cependant, les évaluations actuelles des concepts ont tendance à être heuristiques et non déterministes, par exemple l'étude de cas ou l'évaluation humaine, entravant le développement du domaine. Pour combler cette lacune, nous abordons l'évaluation des explications basées sur des concepts via la fidélité et la lisibilité. Nous introduisons d'abord une définition formelle de concept généralisable à des explications basées sur des concepts divers. Sur cette base, nous quantifions la fidélité via la différence de sortie lors d'une perturbation. Nous fournissons ensuite une mesure automatique pour la lisibilité, en mesurant la cohérence des motifs qui activent au maximum un concept. Cette mesure sert de substitut efficace et fiable à l'évaluation humaine. Enfin, sur la base de la théorie de la mesure, nous décrivons une méthode de méta-évaluation pour évaluer les mesures ci-dessus via la fiabilité et la validité, qui peut également être généralisée à d'autres tâches. Une analyse expérimentale extensive a été réalisée pour valider et informer la sélection des mesures d'évaluation des concepts.

Évaluation des explications basées sur des concepts des modèles linguistiques : une étude sur la fidélité et la lisibilité

Key Points

Abstract

Cite This Study

Also Consider

Also Consider