FashionVLM - Modebeschriftung mit vortrainiertem Vision Transformer und großem Sprachmodell | Synapse