Key points are not available for this paper at this time.
Die Bildbeschreibung ist eine neue Aufgabe der natürlichen Sprachgenerierung, bei der das Ziel darin besteht, eine menschenähnliche Beschreibung eines Bildes zu erzeugen. Die Bewertung von computergeneriertem Text ist jedoch ein notorisch schwieriges Problem; die Qualität von Bildbeschreibungen wurde typischerweise mit unigram BLEU und menschlichen Bewertungen gemessen. Der Schwerpunkt dieses Papiers liegt darin, die Korrelation automatischer Maßnahmen mit menschlichen Bewertungen für diese Aufgabe zu bestimmen. Wir schätzen die Korrelation von unigram und Smoothed BLEU, TER, ROUGE-SU4 und Meteor gegen menschliche Bewertungen auf zwei Datensätzen. Die Hauptfeststellung ist, dass unigram BLEU eine schwache Korrelation aufweist und Meteor die stärkste Korrelation mit menschlichen Bewertungen hat.
Elliott et al. (Wed,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: