July 19, 2024Open Access

Avaliação da Confiabilidade das Autoexplicações em Modelos de Linguagem de Grande Escala

Key Points

Key points are not available for this paper at this time.

Abstract

Este artigo investiga a confiabilidade das explicações geradas por modelos de linguagem de grande escala (LLMs) quando solicitados a explicar sua saída anterior. Avaliamos dois tipos de autoexplicações - extrativas e contrafactuais - utilizando três LLMs de ponta (2B a 8B parâmetros) em duas tarefas de classificação diferentes (objetiva e subjetiva). Nossos resultados revelam que, embora essas autoexplicações possam correlacionar com o julgamento humano, elas não seguem plenamente e com precisão o processo de decisão do modelo, indicando um gap entre a razão percebida e a real do modelo. Mostramos que esse gap pode ser encurtado, pois solicitar explicações contrafactuais aos LLMs pode produzir resultados fiéis, informativos e fáceis de verificar. Esses contrafactuais oferecem uma alternativa promissora aos métodos tradicionais de explicabilidade (por exemplo, SHAP, LIME), desde que os prompts sejam adaptados a tarefas específicas e verificados quanto à validade.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper