April 1, 2024Open Access

De Píxeles a Grafos: Generación de Grafos de Escena de Vocabulación Abierta con Modelos de Visión-Lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La generación de grafos de escena (SGG) tiene como objetivo descomponer una escena visual en una representación gráfica intermedia para tareas de razonamiento posteriores. A pesar de los avances recientes, los métodos existentes luchan por generar grafos de escena con conceptos de relación visual novedosos. Para abordar este desafío, presentamos un nuevo marco de SGG de vocabulario abierto basado en la generación de secuencias. Nuestro marco aprovecha los modelos preentrenados de visión-lenguaje (VLM) al incorporar un paradigma de generación de imagen a grafo. Específicamente, generamos secuencias de grafos de escena a través de la generación de imagen a texto con VLM y luego construimos grafos de escena a partir de estas secuencias. Al hacerlo, aprovechamos las fuertes capacidades de VLM para SGG de vocabulario abierto e integramos de manera fluida el modelado relacional explícito para mejorar las tareas de VL. Los resultados experimentales demuestran que nuestro diseño no solo logra un rendimiento superior con un vocabulario abierto, sino que también mejora el rendimiento en tareas de visión-lenguaje posteriores a través del conocimiento del modelado de relaciones explícitas.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo