De píxeles a gráficos: generación de gráficos de escena de vocabulario abierto con modelos de visión-lenguaje | Synapse