A alucinação em Modelos de Linguagem Grandes (LLMs) refere-se a saídas que parecem fluentes e coerentes, mas são factualmente incorretas, logicamente inconsistentes ou totalmente fabricadas. À medida que os LLMs são cada vez mais utilizados na educação, saúde, direito e pesquisa científica, entender e mitigar alucinações tornou-se crítico. Neste trabalho, apresentamos uma pesquisa abrangente e uma análise empírica da atribuição de alucinações em LLMs. Introduzindo uma nova estrutura para determinar se uma dada alucinação deriva de não otimização da solicitação ou do comportamento intrínseco do modelo. Avaliamos LLMs de ponta, incluindo GPT-4, LLaMA 2, DeepSeek e outros, sob várias condições controladas de solicitação, usando benchmarks estabelecidos (TruthfulQA, HallucinationEval) para julgar a factualidade. Nossa estrutura de atribuição define métricas para Sensibilidade à Solicitação (PS) e Variabilidade do Modelo (MV), que juntas quantificam a contribuição de solicitações versus fatores internos do modelo para alucinações. Através de extensos experimentos e análises comparativas, identificamos padrões distintos na ocorrência, gravidade e mitigação de alucinações entre os modelos. Notavelmente, estratégias de solicitação estruturadas, como solicitações de cadeia de pensamento (CoT), reduzem significativamente as alucinações em cenários sensíveis à solicitação, embora limitações intrínsecas do modelo persistam em alguns casos. Esses achados contribuem para uma compreensão mais profunda da confiabilidade dos LLMs e fornecem insights para engenheiros de solicitação, desenvolvedores de modelos e praticantes de IA. Além disso, propomos melhores práticas e direções futuras para reduzir alucinações tanto no design de solicitações quanto nos fluxos de desenvolvimento de modelos.
Anh-Hoang et al. (Terça-feira,) estudaram esta questão.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: