Key points are not available for this paper at this time.
Die zentrale Herausforderung des Zero-Shot-Lernens (ZSL) besteht darin, wie man das latente semantische Wissen zwischen visuellen und Attributmerkmalen bei gesehenen Klassen ableitet und somit einen wünschenswerten Wissens-transfer zu ungesehenen Klassen erreicht. Frühere Arbeiten gleichen entweder einfach die globalen Merkmale eines Bildes mit dem damit verbundenen semantischen Vektor der Klasse ab oder nutzen unidirektionale Aufmerksamkeit, um die begrenzten latenten semantischen Repräsentationen zu lernen, was nicht effektiv das intrinsische semantische Wissen (z. B. Attributsemantik) zwischen visuellen und Attributmerkmalen entdecken konnte. Um das oben genannte Dilemma zu lösen, schlagen wir ein Gegenseitiges Semantisches Destillationsnetzwerk (MSDN) vor, das schrittweise die intrinsischen semantischen Repräsentationen zwischen visuellen und Attributmerkmalen für ZSL destilliert. MSDN integriert ein Attribut→visuelle Aufmerksamkeitssubnetz, das attributbasierte visuelle Merkmale lernt, und ein visuelle→Attribut-Aufmerksamkeitssubnetz, das visuelle-basierte Attributmerkmale lernt. Durch die Einführung eines semantischen Destillationsverlusts sind die beiden gegenseitigen Aufmerksamkeitsunter-netze in der Lage, kooperativ zu lernen und sich während des Trainingsprozesses gegenseitig zu lehren. Das vorgeschlagene MSDN erzielt erhebliche Verbesserungen gegenüber den starken Ausgangswerten und führt zu neuen state-of-the-art Leistungen bei drei beliebten herausfordernden Benchmarks. Unser Code ist verfügbar unter: https://github.com/shiming-chen/MSDN.
Chen et al. (Mittwoch) haben diese Frage untersucht.