Key points are not available for this paper at this time.
Embora os grandes modelos de linguagem (LLMs) tenham feito grandes avanços para ajudar os humanos em uma infinidade de tarefas, as alucinações continuam sendo um grande impedimento para ganhar a confiança do usuário. A fluência e a coerência das gerações do modelo, mesmo quando alucinatórias, tornam a detecção uma tarefa difícil. Neste trabalho, exploramos se os artefatos associados às gerações do modelo podem fornecer pistas de que a geração conterá alucinações. Especificamente, analisamos os LLMs em 1) as entradas por meio da atribuição de tokens baseada em Gradientes Integrados, 2) as saídas por meio das probabilidades Softmax, e 3) o estado interno por meio de atenção própria e ativações de camadas totalmente conectadas em busca de sinais de alucinações em tarefas de respostas a perguntas abertas. Nossos resultados mostram que as distribuições desses artefatos tendem a diferir entre gerações alucinatórias e não alucinatórias. Com base nessa percepção, treinamos classificadores binários que utilizam esses artefatos como recursos de entrada para classificar as gerações do modelo em alucinações e não alucinações. Esses classificadores de alucinações alcançam até 0,80 AUROC. Também mostramos que os tokens que antecedem uma alucinação já podem prever a alucinação subsequente, mesmo antes de ocorrer.
Snyder et al. (Sat,) estudaram esta questão.