Resumo O cérebro humano extrai informações complexas de entradas visuais, incluindo objetos, suas interações espaciais e semânticas, e suas interações com o ambiente. No entanto, uma abordagem quantitativa para estudar essas informações continua elusiva. Aqui testamos se as informações contextuais codificadas em grandes modelos de linguagem (LLMs) são benéficas para modelar a complexa informação visual extraída pelo cérebro de cenas naturais. Mostramos que as incorporações de LLM de legendas de cenas caracterizam com sucesso a atividade cerebral evocada pela visualização das cenas naturais. Este mapeamento captura seletividades de diferentes áreas do cérebro e é suficientemente robusto para que legendas de cenas precisas possam ser reconstruídas a partir da atividade cerebral. Usando comparações de modelos cuidadosamente controladas, procedemos a demonstrar que a precisão com que as representações de LLM correspondem às representações do cérebro decorre da capacidade dos LLMs de integrar informações complexas contidas nas legendas de cenas além daquelas transmitidas por palavras individuais. Finalmente, treinamos modelos de redes neurais profundas para transformar entradas de imagem em representações de LLM. Notavelmente, essas redes aprendem representações que estão melhor alinhadas com as representações do cérebro do que um grande número de modelos alternativos de última geração, apesar de serem treinadas com ordens de magnitude menos dados. No geral, nossos resultados sugerem que as incorporações de LLM de legendas de cenas fornecem um formato representacional que leva em conta informações complexas extraídas pelo cérebro de entradas visuais.
Doerig et al. (Qui,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: