Key points are not available for this paper at this time.
Este artigo investiga a confiabilidade das explicações geradas por modelos de linguagem de grande escala (LLMs) quando solicitados a explicar sua saída anterior. Avaliamos dois tipos de autoexplicações - extrativas e contrafactuais - utilizando três LLMs de ponta (2B a 8B parâmetros) em duas tarefas de classificação diferentes (objetiva e subjetiva). Nossos resultados revelam que, embora essas autoexplicações possam correlacionar com o julgamento humano, elas não seguem plenamente e com precisão o processo de decisão do modelo, indicando um gap entre a razão percebida e a real do modelo. Mostramos que esse gap pode ser encurtado, pois solicitar explicações contrafactuais aos LLMs pode produzir resultados fiéis, informativos e fáceis de verificar. Esses contrafactuais oferecem uma alternativa promissora aos métodos tradicionais de explicabilidade (por exemplo, SHAP, LIME), desde que os prompts sejam adaptados a tarefas específicas e verificados quanto à validade.
Randl et al. (Sex,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: