Ein Vergleich von vortrainierten Vision-and-Language-Modellen für multimodales Repräsentationslernen über medizinische Bilder und Berichte | Synapse