Key points are not available for this paper at this time.
Duale Encoder-Architekturen wie CLIP-Modelle kartieren zwei Arten von Eingaben in einen gemeinsamen Einbettungsraum und lernen Ähnlichkeiten zwischen ihnen. Es ist jedoch nicht klar, wie solche Modelle zwei Eingaben vergleichen. Hier adressieren wir diese Forschungslücke mit zwei Beiträgen. Erstens leiten wir eine Methode ab, um Vorhersagen eines beliebigen differentiierbaren Dualencoders auf Merkmals-Paar-Interaktionen zwischen seinen Eingaben zuzuordnen. Zweitens wenden wir unsere Methode auf CLIP-ähnliche Modelle an und zeigen, dass sie feinkörnige Entsprechungen zwischen Teilen von Beschriftungen und Regionen in Bildern lernen. Sie ordnen Objekte über Eingabemodi hinweg zu und berücksichtigen auch Abweichungen. Diese Fähigkeit zur visuellen-linguistischen Verankerung variiert jedoch stark zwischen Objektklassen, hängt von der Verteilung der Trainingsdaten ab und verbessert sich erheblich nach dem Training im Domänenkontext. Mit unserer Methode können wir Wissenslücken über spezifische Objektklassen in einzelnen Modellen identifizieren und deren Verbesserung während des Feintunings überwachen.
Möller et al. (Mon,) untersuchten diese Frage.