Los sistemas de recomendación multimodal (MRS) integran datos heterogéneos de usuarios y elementos, como texto, imágenes e información estructurada, para mejorar el rendimiento de la recomendación. La aparición de modelos de lenguaje grande (LLMs) introduce nuevas oportunidades para los MRS al permitir razonamiento semántico, aprendizaje en contexto y manejo dinámico de entradas. En comparación con los anteriores modelos de lenguaje preentrenados (PLMs), los LLMs ofrecen mayor flexibilidad y capacidades de generalización, pero también presentan desafíos relacionados con la escalabilidad y accesibilidad del modelo. Esta encuesta presenta una revisión exhaustiva del trabajo reciente en la intersección de los LLMs y los MRS, centrándose en estrategias de incitación, métodos de ajuste fino y técnicas de adaptación de datos. Proponemos una nueva taxonomía para caracterizar patrones de integración, identificar técnicas transferibles de dominios de recomendación relacionados, proporcionar una visión general de métricas de evaluación y conjuntos de datos, y señalar posibles direcciones futuras. Nuestro objetivo es esclarecer el papel emergente de los LLMs en la recomendación multimodal y apoyar futuras investigaciones en este campo en rápida evolución.
Lopez-Avila et al. (Wed,) estudiaron esta cuestión.