Key points are not available for this paper at this time.
Wir untersuchen die Aufgabe, Modelle zur visuellen Objekterkennung ausschließlich aus natürlichen Sprachbeschreibungen zu lernen. Der Ansatz trägt zur Erkennung feinkörniger Objektkategorien bei, wie z.B. Tier- und Pflanzenarten, für die es schwierig sein kann, viele Bilder zum Trainieren zu sammeln, aber wo textuelle Beschreibungen visueller Merkmale leicht verfügbar sind. Als Beispiel behandeln wir die Erkennung von Schmetterlingsarten und lernen Modelle aus Beschreibungen in einem Online-Naturführer. Wir schlagen Methoden der natürlichen Sprachverarbeitung vor, um auffällige visuelle Merkmale aus diesen Beschreibungen zu extrahieren, die als ‚Vorlagen‘ für die Objektkategorien verwendet werden, und wenden Bildverarbeitungsmethoden an, um entsprechende Merkmale aus Testbildern zu extrahieren. Ein generatives Modell wird verwendet, um textuelle Begriffe in den gelernten Vorlagen mit visuellen Attributen zu verbinden. Wir berichten über Experimente, die die Leistung von Menschen und die vorgeschlagene Methode an einem Datensatz von zehn Schmetterlingskategorien vergleichen.
Wang et al. (Thu,) haben diese Frage untersucht.