Key points are not available for this paper at this time.
Das Abrufen von Bildern als Antwort auf textuelle Anfragen erfordert ein gewisses Wissen über die Semantik des Bildes. Hier zeigen wir, wie wir sowohl eine automatische Bildannotation als auch das Abrufen (unter Verwendung von einwortigen Anfragen) aus Bildern und Videos mithilfe eines mehrfachen Bernoulli-Relevanzmodells durchführen können. Das Modell nimmt an, dass ein Trainingssatz von Bildern oder Videos zusammen mit Schlüsselwortannotationen bereitgestellt wird. Für ein Bild werden mehrere Schlüsselwörter bereitgestellt, und die spezifische Entsprechung zwischen einem Schlüsselwort und einem Bild wird nicht angegeben. Jedes Bild wird in eine Menge von rechteckigen Regionen partitioniert und ein reeller Merkmalsvektor wird über diese Regionen berechnet. Das Relevanzmodell ist eine gemeinsame Wahrscheinlichkeitsverteilung der Wortannotationen und der Bildmerkmalsvektoren und wird mithilfe des Trainingssatzes berechnet. Die Wortwahrscheinlichkeiten werden unter Verwendung eines mehrfachen Bernoulli-Modells geschätzt und die Bildmerkmalwahrscheinlichkeiten unter Verwendung einer nicht-parametrischen Kerndichte-Schätzung. Das Modell wird dann verwendet, um Bilder in einem Testdatensatz zu annotieren. Wir zeigen Experimente sowohl mit Bildern aus einem standardisierten Corel-Datensatz als auch mit einer Reihe von Videostandbildern aus NISTs Videobaum. Vergleichsexperimente zeigen, dass das Modell besser abschneidet als ein Modell, das Wortwahrscheinlichkeiten unter Verwendung der beliebten multinomialen Verteilung schätzt. Die Ergebnisse zeigen auch, dass unser Modell die zuvor berichteten Ergebnisse bei der Aufgabe der Bild- und Videoannotation signifikant übertrifft.
Feng et al. (Fr,) untersuchten diese Frage.