Key points are not available for this paper at this time.
Moderne Methoden zur Null-Schuss- visuellen Erkennung formulieren das Lernen als ein gemeinsames Einbettungsproblem von Bildern und Zusatzinformationen. In diesen Formulierungen sind die aktuellen besten Ergänzungen zu visuellen Merkmalen Attribute: manuell kodierte Vektoren, die gemeinsame Eigenschaften zwischen Kategorien beschreiben. Trotz guter Leistung haben Attribute Einschränkungen: (1) eine feinere Erkennung erfordert entsprechend mehr Attribute, und (2) Attribute bieten keine natursprache Schnittstelle. Wir schlagen vor, diese Einschränkungen zu überwinden, indem wir neuronale Sprachmodelle von Grund auf neu trainieren, d.h. ohne Vortraining und nur mit Wörtern und Zeichen. Unsere vorgeschlagenen Modelle werden end-to-end trainiert, um mit dem feinkörnigen und kategoriespezifischen Inhalt von Bildern übereinzustimmen. Die natürliche Sprache bietet eine flexible und kompakte Möglichkeit, nur die auffälligen visuellen Aspekte zur Unterscheidung von Kategorien zu kodieren. Durch das Training mit rohem Text kann unser Modell auch Inferenz mit rohem Text durchführen, was den Menschen eine vertraute Methode sowohl für Annotation als auch für Abruf bietet. Unser Modell erzielt starke Leistungen beim Null-Schuss textbasierten Bildabruf und übertrifft die auf Attributen basierende Spitzenleistung bei der Null-Schuss-Klassifizierung im Caltech-UCSD Birds 200-2011 Datensatz erheblich.
Reed et al. (Mi,) untersuchten diese Frage.