August 26, 2024Open Access

Erklärung der Ähnlichkeiten zwischen Vision und Sprache in dualen Encodern mit Merkmals-Paar-Zuordnungen

Key Points

Key points are not available for this paper at this time.

Abstract

Duale Encoder-Architekturen wie CLIP-Modelle kartieren zwei Arten von Eingaben in einen gemeinsamen Einbettungsraum und lernen Ähnlichkeiten zwischen ihnen. Es ist jedoch nicht klar, wie solche Modelle zwei Eingaben vergleichen. Hier adressieren wir diese Forschungslücke mit zwei Beiträgen. Erstens leiten wir eine Methode ab, um Vorhersagen eines beliebigen differentiierbaren Dualencoders auf Merkmals-Paar-Interaktionen zwischen seinen Eingaben zuzuordnen. Zweitens wenden wir unsere Methode auf CLIP-ähnliche Modelle an und zeigen, dass sie feinkörnige Entsprechungen zwischen Teilen von Beschriftungen und Regionen in Bildern lernen. Sie ordnen Objekte über Eingabemodi hinweg zu und berücksichtigen auch Abweichungen. Diese Fähigkeit zur visuellen-linguistischen Verankerung variiert jedoch stark zwischen Objektklassen, hängt von der Verteilung der Trainingsdaten ab und verbessert sich erheblich nach dem Training im Domänenkontext. Mit unserer Methode können wir Wissenslücken über spezifische Objektklassen in einzelnen Modellen identifizieren und deren Verbesserung während des Feintunings überwachen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper