Key points are not available for this paper at this time.
Das kompositionelle Zero-Shot-Lernen (CZSL) zielt darauf ab, ungesehene Kompositionen zu erkennen, die aus während des Trainings gesehenen Zuständen und Objekten gebildet werden. Da derselbe Zustand in seinem visuellen Erscheinungsbild variieren kann, während er mit verschiedenen Objekten verknüpft ist, bleibt CZSL eine herausfordernde Aufgabe. Einige Methoden erkennen Zustand und Objekt mit zwei trainierten Klassifikatoren und ignorieren den Einfluss der Interaktion zwischen Objekt und Zustand; andere Methoden versuchen, die gemeinsame Darstellung der Zustand-Objekt-Kompositionen zu lernen, was zu einer Domänendifferenz zwischen gesehenen und ungesehenen Kompositionssätzen führt. In diesem Papier schlagen wir ein neuartiges Siamese Contrastive Embedding Network (SCEN) vor, um ungesehene Kompositionen zu erkennen. Angesichts der Verflechtung zwischen Zustand und Objekt betten wir das visuelle Merkmal in einen Siamese Contrastive Space ein, um Prototypen davon separat zu erfassen und die Interaktion zwischen Zustand und Objekt zu verringern. Darüber hinaus entwerfen wir ein State Transition Module (STM), um die Vielfalt der Training-Kompositionen zu erhöhen und die Robustheit des Erkennungsmodells zu verbessern. Umfassende Experimente zeigen, dass unsere Methode die neuesten Ansätze auf drei herausfordernden Benchmark-Datensätzen, einschließlich des kürzlich vorgeschlagenen C-QGA-Datensatzes, signifikant übertrifft.
Li et al. (Mittwoch) haben diese Frage untersucht.