Los puntos clave no están disponibles para este artículo en este momento.
La generación de grafos de escena (SGG) tiene como objetivo descomponer una escena visual en una representación gráfica intermedia para tareas de razonamiento posteriores. A pesar de los avances recientes, los métodos existentes luchan por generar grafos de escena con conceptos de relación visual novedosos. Para abordar este desafío, presentamos un nuevo marco de SGG de vocabulario abierto basado en la generación de secuencias. Nuestro marco aprovecha los modelos preentrenados de visión-lenguaje (VLM) al incorporar un paradigma de generación de imagen a grafo. Específicamente, generamos secuencias de grafos de escena a través de la generación de imagen a texto con VLM y luego construimos grafos de escena a partir de estas secuencias. Al hacerlo, aprovechamos las fuertes capacidades de VLM para SGG de vocabulario abierto e integramos de manera fluida el modelado relacional explícito para mejorar las tareas de VL. Los resultados experimentales demuestran que nuestro diseño no solo logra un rendimiento superior con un vocabulario abierto, sino que también mejora el rendimiento en tareas de visión-lenguaje posteriores a través del conocimiento del modelado de relaciones explícitas.
Li et al. (Mon,) estudiaron esta pregunta.