Key points are not available for this paper at this time.
Trotz signifikanter Fortschritte bei Modellen der Computer Vision bleibt ihre Fähigkeit, auf neuartige Objekt-Attribut-Kompositionen zu generalisieren, eingeschränkt. Bestehende Methoden für Compositional Zero-Shot Learning (CZSL) konzentrieren sich hauptsächlich auf die Bildklassifizierung. Dieses Papier zielt darauf ab, CZSL in der Objekterkennung zu verbessern, ohne zuvor erlerntes Wissen zu vergessen. Wir verwenden Grounding DINO und integrieren Compositional Soft Prompting (CSP) und erweitern es mit Compositional Anticipation. Wir erreichen eine Verbesserung von 70,5 % gegenüber CSP beim harmonischen Mittel (HM) zwischen gesehenen und ungesehenen Kompositionen im CLEVR-Datensatz. Darüber hinaus führen wir Contrastive Prompt Tuning ein, um die Verwirrung des Modells zwischen ähnlichen Kompositionen schrittweise zu adressieren. Wir demonstrieren die Wirksamkeit dieser Methode und erzielen eine Steigerung von 14,5 % im HM über die Pretrain-, Inkrement- und ungesehenen Sätze. Insgesamt bieten diese Methoden einen Rahmen zum Lernen verschiedener Kompositionen mit begrenzten Daten sowie zur Verbesserung der Leistung von unterdurchschnittlichen Kompositionen, wenn zusätzliche Daten verfügbar werden.
Zahran et al. (Mon.) untersuchten diese Frage.