January 1, 2014Open Access

Vergleich von automatischen Bewertungsmaßnahmen für die Bildbeschreibung

Key Points

Key points are not available for this paper at this time.

Abstract

Die Bildbeschreibung ist eine neue Aufgabe der natürlichen Sprachgenerierung, bei der das Ziel darin besteht, eine menschenähnliche Beschreibung eines Bildes zu erzeugen. Die Bewertung von computergeneriertem Text ist jedoch ein notorisch schwieriges Problem; die Qualität von Bildbeschreibungen wurde typischerweise mit unigram BLEU und menschlichen Bewertungen gemessen. Der Schwerpunkt dieses Papiers liegt darin, die Korrelation automatischer Maßnahmen mit menschlichen Bewertungen für diese Aufgabe zu bestimmen. Wir schätzen die Korrelation von unigram und Smoothed BLEU, TER, ROUGE-SU4 und Meteor gegen menschliche Bewertungen auf zwei Datensätzen. Die Hauptfeststellung ist, dass unigram BLEU eine schwache Korrelation aufweist und Meteor die stärkste Korrelation mit menschlichen Bewertungen hat.

Bookmark

View Full Paper