January 1, 2019Open Access

Mensch gegen Muppet: Eine konservative Schätzung der menschlichen Leistung im GLUE-Benchmark

Key Points

Key points are not available for this paper at this time.

Abstract

Der GLUE-Benchmark (Wang et al., 2019b) ist eine Suite von Aufgaben zum Sprachverständnis, die im vergangenen Jahr dramatische Fortschritte verzeichnet hat, wobei die durchschnittliche Leistung von 70,0 zu Beginn auf 83,9, den damaligen Stand der Technik, gestiegen ist (Stand: 24. Mai 2019). Hier messen wir die menschliche Leistung im Benchmark, um herauszufinden, ob signifikante Spielräume für weitere Fortschritte bestehen. Wir bieten eine konservative Schätzung der menschlichen Leistung im Benchmark durch Crowdsourcing an: Unsere Annotatoren sind Nicht-Experten, die jede Aufgabe anhand eines kurzen Satzes von Anweisungen und 20 Beispielen erlernen müssen. Trotz begrenzter Schulung übertreffen diese Annotatoren robust den Stand der Technik bei sechs der neun GLUE-Aufgaben und erreichen einen Durchschnittswert von 87,1. Angesichts des schnellen Fortschritts ist der beobachtete Spielraum jedoch ziemlich begrenzt. Um die datenarme Umgebung zu reproduzieren, in der unsere Annotatoren lernen müssen, trainieren wir auch das BERT-Modell.

KI fragen

Bookmark

View Full Paper