What type of study is this?

This is a Literature Review study.

October 20, 2025Open Access

Modelos de Lenguaje Multimodal a Gran Escala Encuentran Reconocimiento y Razonamiento Emocional Multimodal: Una Encuesta

Puntos clave

Los modelos de lenguaje multimodal a gran escala mejoran el reconocimiento emocional y el razonamiento, indicando su potencial en aplicaciones de IA.
La encuesta destaca los avances en arquitecturas de modelos y puntos de referencia de rendimiento para LLMs y MLLMs en contextos emocionales.
Se detallan los desafíos en la integración de diversas modalidades para el reconocimiento y razonamiento emocional, enfatizando áreas que requieren más investigación.
Esta investigación sirve como una referencia fundamental para futuros estudios sobre los MLLMs y sus aplicaciones en la comprensión de contextos emocionales.

Resumen

En los últimos años, los modelos de lenguaje a gran escala (LLMs) han impulsado avances importantes en la comprensión del lenguaje, marcando un paso significativo hacia la inteligencia general artificial (AGI). Con la creciente demanda de semántica de nivel superior y fusión entre modalidades, han surgido modelos de lenguaje multimodal a gran escala (MLLMs), integrando diversas fuentes de información (p. ej., texto, visión y audio) para mejorar el modelado y el razonamiento en escenarios complejos. En la IA para la Ciencia, el reconocimiento y razonamiento emocional multimodal se ha convertido en una frontera de rápido crecimiento. Aunque los LLMs y MLLMs han logrado un progreso notable en esta área, el campo aún carece de una revisión sistemática que consolide los desarrollos recientes. Para abordar esta brecha, este artículo proporciona una encuesta integral de LLMs y MLLMs para el reconocimiento y razonamiento emocional, abarcando arquitecturas de modelos, conjuntos de datos y puntos de referencia de rendimiento. Además, destacamos desafíos clave y delineamos direcciones de investigación futuras, con el objetivo de ofrecer a los investigadores tanto una referencia autoritativa como perspectivas prácticas para avanzar en este dominio. Hasta donde sabemos, este artículo es el primer intento de evaluar de manera integral la intersección de los MLLMs con el reconocimiento y razonamiento emocional multimodal. El resumen de los métodos existentes se menciona en nuestro Github: https://github.com/yuntaoshou/Awesome-Emotion-Reasoning.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo