April 17, 2024Open Access

Ein progressives Rahmenwerk zur Wissensdestillation und -ausrichtung von Vision-Language für mehrsprachige Szenen

Key Points

Key points are not available for this paper at this time.

Abstract

Vortrainierte Vision-Language (V-L) Modelle wie CLIP haben in vielen nachgelagerten, multimodalen Aufgaben hervorragende Leistungen gezeigt. Allerdings sind die meisten von ihnen nur im englischen Kontext anwendbar. Nachfolgende Forschungen haben sich auf dieses Problem konzentriert und verbesserte Modelle wie CN-CLIP und AltCLIP vorgeschlagen, um ihre Anwendbarkeit auf Chinesisch und sogar andere Sprachen zu erleichtern. Dennoch leiden diese Modelle unter hoher Latenz und einem großen Speicherbedarf bei der Inferenz, was ihre weitere Bereitstellung auf ressourcenbeschränkten Edge-Geräten einschränkt. In dieser Arbeit schlagen wir ein konzeptionell einfaches, aber effektives mehrsprachiges CLIP-Kompressionsframework vor und trainieren ein leichtgewichtiges, mehrsprachiges Vision-Language-Modell, genannt DC-CLIP, für den chinesischen und den englischen Kontext. In diesem Rahmen sammeln wir hochwertig chinesisch-englische Text-Bild-Paare und entwerfen zwei Trainingsphasen, einschließlich der mehrsprachigen Vision-Language-Feature-Destillation und -Ausrichtung. In der ersten Phase werden leichte Bild-/Text-Schülermodelle entworfen, um robuste visuelle/multilinguale textuelle Merkmalsrepräsentationsfähigkeiten von den entsprechenden Lehrermodellen zu lernen. Anschließend ermöglicht die mehrsprachige Vision-Language-Ausrichtungsphase eine effektive Ausrichtung visueller und mehrsprachiger textueller Merkmale, um die mehrsprachige Leistung des Modells weiter zu verbessern. Umfassende Experimente zur Zero-Shot-Bildklassifizierung, die auf dem ELEVATER-Benchmark durchgeführt wurden, zeigen, dass DC-CLIP im englischen Kontext eine überlegene Leistung und im chinesischen Kontext eine wettbewerbsfähige Leistung erzielt, selbst mit weniger Trainingsdaten im Vergleich zu bestehenden Modellen ähnlicher Parametergröße. Die Bewertung zeigt die Effektivität unseres entworfenen Trainingsmechanismus.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper