VoCoT: Freisetzung visuell verankerter mehrstufiger Schlussfolgerungen in großen multimodalen Modellen | Synapse