En los últimos años, los modelos de lenguaje a gran escala (LLMs) han impulsado avances importantes en la comprensión del lenguaje, marcando un paso significativo hacia la inteligencia general artificial (AGI). Con la creciente demanda de semántica de nivel superior y fusión entre modalidades, han surgido modelos de lenguaje multimodal a gran escala (MLLMs), integrando diversas fuentes de información (p. ej., texto, visión y audio) para mejorar el modelado y el razonamiento en escenarios complejos. En la IA para la Ciencia, el reconocimiento y razonamiento emocional multimodal se ha convertido en una frontera de rápido crecimiento. Aunque los LLMs y MLLMs han logrado un progreso notable en esta área, el campo aún carece de una revisión sistemática que consolide los desarrollos recientes. Para abordar esta brecha, este artículo proporciona una encuesta integral de LLMs y MLLMs para el reconocimiento y razonamiento emocional, abarcando arquitecturas de modelos, conjuntos de datos y puntos de referencia de rendimiento. Además, destacamos desafíos clave y delineamos direcciones de investigación futuras, con el objetivo de ofrecer a los investigadores tanto una referencia autoritativa como perspectivas prácticas para avanzar en este dominio. Hasta donde sabemos, este artículo es el primer intento de evaluar de manera integral la intersección de los MLLMs con el reconocimiento y razonamiento emocional multimodal. El resumen de los métodos existentes se menciona en nuestro Github: https://github.com/yuntaoshou/Awesome-Emotion-Reasoning.
Shou et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: