March 24, 2024Open Access

Structure-CLIP: Hacia el conocimiento del grafo de escena para mejorar representaciones estructuradas multimodales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El preentrenamiento a gran escala en visión-lenguaje ha logrado un rendimiento significativo en tareas de comprensión y generación multimodal. Sin embargo, los métodos existentes a menudo tienen un rendimiento deficiente en tareas de coincidencia imagen-texto que requieren representaciones estructuradas, es decir, representaciones de objetos, atributos y relaciones. Los modelos no pueden hacer una distinción entre "Un astronauta monta un caballo" y "Un caballo monta un astronauta". Esto se debe a que no aprovechan completamente el conocimiento estructurado al aprender representaciones multimodales. En este artículo, presentamos un marco de extremo a extremo llamado Structure-CLIP, que integra el Conocimiento del Grafo de Escena (SGK) para mejorar las representaciones estructuradas multimodales. En primer lugar, utilizamos grafos de escena para guiar la construcción de ejemplos negativos semánticos, lo que resulta en un mayor énfasis en el aprendizaje de representaciones estructuradas. Además, se propone un Codificador de Mejora de Conocimiento (KEE) para aprovechar el SGK como entrada y mejorar aún más las representaciones estructuradas. Para verificar la efectividad del marco propuesto, preentrenamos nuestro modelo con los enfoques mencionados y realizamos experimentos en tareas posteriores. Los resultados experimentales demuestran que Structure-CLIP logra un rendimiento de vanguardia (SOTA) en los conjuntos de datos VG-Attribution y VG-Relation, con un 12.5% y un 4.1% por delante del modelo SOTA multimodal respectivamente. Mientras tanto, los resultados en MSCOCO indican que Structure-CLIP mejora significativamente las representaciones estructuradas mientras mantiene la capacidad de representaciones generales. Nuestro código está disponible en https://github.com/zjukg/Structure-CLIP.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo