May 19, 2023Open Access

Subtitulación del Cerebro: Decodificando la actividad cerebral humana en imágenes y texto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Cada día, el cerebro humano procesa un inmenso volumen de información visual, confiando en intrincados mecanismos neurales para percibir e interpretar estos estímulos. Los recientes avances en la imagen por resonancia magnética funcional (fMRI) han permitido a los científicos extraer información visual de los patrones de actividad cerebral humana. En este estudio, presentamos un método innovador para decodificar la actividad cerebral en imágenes significativas y subtítulos, con un enfoque específico en la subtitulación del cerebro debido a su mayor flexibilidad en comparación con la decodificación del cerebro en imágenes. Nuestro enfoque aprovecha modelos avanzados de subtitulación de imágenes e incorpora un pipeline único de reconstrucción de imágenes que utiliza modelos de difusión latente y estimación de profundidad. Utilizamos el Natural Scenes Dataset, un conjunto de datos fMRI completo de ocho sujetos que vieron imágenes del conjunto de datos COCO. Empleamos el Generative Image-to-text Transformer (GIT) como nuestra base para la subtitulación y proponemos un nuevo pipeline de reconstrucción de imágenes basado en modelos de difusión latente. El método implica entrenar modelos de regresión lineal regularizados entre la actividad cerebral y las características extraídas. Además, incorporamos mapas de profundidad del modelo ControlNet para guiar aún más el proceso de reconstrucción. Evaluamos nuestros métodos utilizando métricas cuantitativas tanto para los subtítulos generados como para las imágenes. Nuestro enfoque de subtitulación del cerebro supera los métodos existentes, mientras que nuestro pipeline de reconstrucción de imágenes genera imágenes plausibles con relaciones espaciales mejoradas. En conclusión, demostramos un progreso significativo en la decodificación cerebral, mostrando el enorme potencial de integrar visión y lenguaje para entender mejor la cognición humana. Nuestro enfoque proporciona una plataforma flexible para futuras investigaciones, con posibles aplicaciones en varios campos, incluyendo el arte neural, transferencia de estilo y dispositivos portátiles.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo