Los puntos clave no están disponibles para este artículo en este momento.
Las incrustaciones de texto genéricas han demostrado un considerable éxito en múltiples aplicaciones. Sin embargo, estas incrustaciones se derivan típicamente modelando los patrones de co-ocurrencia dentro de corpora únicamente textuales, lo que puede limitar su capacidad para generalizar de manera efectiva en diversos contextos. En este estudio, investigamos metodologías que incorporan información visual en representaciones textuales para superar estas limitaciones. A través de extensos estudios de ablación, introducimos una nueva y sencilla arquitectura llamada Red de Fusión Visual-Texto (VTFN). Esta arquitectura no solo supera los enfoques multimodales existentes en una variedad de conjuntos de datos de referencia bien establecidos, sino que también logra un rendimiento de vanguardia en conjuntos de datos textuales relacionados con imágenes, utilizando significativamente menos datos de entrenamiento. Nuestros hallazgos subrayan el potencial de integrar modalidades visuales para mejorar sustancialmente la robustez y aplicabilidad de las incrustaciones de texto, abriendo el camino para representaciones semánticas más matizadas y contextualmente ricas.
Sterling et al. (Jue,) estudiaron esta cuestión.