Structure-CLIP: Hacia el conocimiento de gráficos de escena para mejorar representaciones estructuradas multimodales | Synapse