Siamese Vision Transformers sind skalierbare audiovisuelle Lernende | Synapse