March 5, 2024

FashionVLM - Mode-Beschriftung mithilfe eines vortrainierten Vision Transformers und eines großen Sprachmodells

Key Points

Key points are not available for this paper at this time.

Abstract

Bildbeschriftungsmodelle generieren automatisch Bildbeschreibungen unter Verwendung der Semantik des Eingabebildes. Verbesserungen bei der Bildbeschriftung haben den Weg für Modebildbeschriftungen geebnet, um ausdrucksvollere Beschreibungen zu erzeugen, die mehr Attribute des Modeartikels einfangen. In unserer aktuellen Forschungsarbeit konzentrieren wir uns auf die Gestaltung und Entwicklung eines Modebildbeschriftungsmodells zur Automatisierung der Erstellung beschreibender Bildunterschriften für Modeartikel. Wir nennen es das Fashion Vision-Language Model (FashionVLM), um die multimodale Natur des Modells zu erfassen. Wir verwenden ein eingefrorenes großes Sprachmodell als Textdecoder und einen Vision Transformer als Bildencoder und verbinden diese Modelle mit einem vergleichsweise kleineren Abfragetrafo. Das Fashion Captioning Dataset (FACAD) ist eines der größten Datensätze für Modeartikel. Für das Fine-Tuning auf FACAD verwenden wir BLIP-2 vortrainierte Modelle der zweiten Phase und MS COCO feinabgestimmte Modelle in drei verschiedenen Phasen. In Phase Eins verwenden wir BLIP-2 vortrainierte Modelle der zweiten Phase, die auf OPT-2.7 und OPT-6.7 basieren, als Basismodelle. In Phase Zwei nutzen wir BLIP-2, basierend auf OPT-2.7 und OPT-6.7, mit MS COCO feinabgestimmte Modelle als Basismodelle. In Phase Drei verwenden wir die Modelle der Phase Eins als Basismodelle für das Fine-Tuning. Das auf OPT-6.7 basierende FashionVLM der Phase Drei erzielt die beste Leistung im Vergleich zum Stand der Technik für Modebeschriftungen auf FACAD, mit Verbesserungen von +4,281 Punkten, +39,015 Punkten, +5,667 Punkten und +3,519 Punkten für die Leistungsmetriken BLEU-4, CIDEr, ROUGE-L und METEOR respektive.

Bookmark

FashionVLM - Mode-Beschriftung mithilfe eines vortrainierten Vision Transformers und eines großen Sprachmodells

Key Points

Abstract

Cite This Study