August 7, 2025Open Access

Representações visuais de alto nível no cérebro humano estão alinhadas com grandes modelos de linguagem

Key Points

DESCOBERTA PRINCIPAL: As incorporações de LLM caracterizam efetivamente a atividade cerebral associada a cenas visuais.
EVIDÊNCIA CHAVE: As legendas de cenas codificadas em LLMs alinham-se bem com os dados de representação cerebral de estímulos visuais.
ABORDAGEM: O estudo utiliza comparações de modelos e redes neurais profundas para avaliar o alinhamento com a atividade cerebral.
SIGNIFICÂNCIA: Resultados indicam que os LLMs podem oferecer insights valiosos sobre o processamento de informações visuais complexas pelo cérebro.

Abstract

Resumo O cérebro humano extrai informações complexas de entradas visuais, incluindo objetos, suas interações espaciais e semânticas, e suas interações com o ambiente. No entanto, uma abordagem quantitativa para estudar essas informações continua elusiva. Aqui testamos se as informações contextuais codificadas em grandes modelos de linguagem (LLMs) são benéficas para modelar a complexa informação visual extraída pelo cérebro de cenas naturais. Mostramos que as incorporações de LLM de legendas de cenas caracterizam com sucesso a atividade cerebral evocada pela visualização das cenas naturais. Este mapeamento captura seletividades de diferentes áreas do cérebro e é suficientemente robusto para que legendas de cenas precisas possam ser reconstruídas a partir da atividade cerebral. Usando comparações de modelos cuidadosamente controladas, procedemos a demonstrar que a precisão com que as representações de LLM correspondem às representações do cérebro decorre da capacidade dos LLMs de integrar informações complexas contidas nas legendas de cenas além daquelas transmitidas por palavras individuais. Finalmente, treinamos modelos de redes neurais profundas para transformar entradas de imagem em representações de LLM. Notavelmente, essas redes aprendem representações que estão melhor alinhadas com as representações do cérebro do que um grande número de modelos alternativos de última geração, apesar de serem treinadas com ordens de magnitude menos dados. No geral, nossos resultados sugerem que as incorporações de LLM de legendas de cenas fornecem um formato representacional que leva em conta informações complexas extraídas pelo cérebro de entradas visuais.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper