Key points are not available for this paper at this time.
Modelos de linguagem multimodais de grande escala (MLLMs) têm o potencial de apoiar os humanos no processamento de vastas quantidades de informação. Embora os MLLMs já estejam sendo utilizados como uma ferramenta de verificação de fatos, suas capacidades e limitações nesse sentido são pouco estudadas. Aqui, nosso objetivo é preencher essa lacuna. Em particular, propomos um quadro para avaliar sistematicamente a capacidade dos modelos multimodais atuais de facilitar a verificação de fatos no mundo real. Nossa metodologia é isenta de evidência, aproveitando apenas o conhecimento intrínseco e as capacidades de raciocínio desses modelos. Ao projetar prompts que extraem previsões, explicações e níveis de confiança dos modelos, investigamos questões de pesquisa sobre a precisão do modelo, robustez e razões para falhas. Encontramos empiricamente que (1) o GPT-4V apresenta desempenho superior na identificação de alegações multimodais maliciosas e enganadoras, com a capacidade de explicar os aspectos irracionais e os motivos subjacentes, e (2) os modelos de código aberto existentes exibem fortes vieses e são altamente sensíveis ao prompt. Nosso estudo oferece insights para combater informações multimodais falsas e construir modelos multimodais seguros e confiáveis. Até onde sabemos, somos os primeiros a avaliar MLLMs para verificação de fatos no mundo real.
Geng et al. (Quarta-feira) estudaram essa questão.