Genauere Tests für die statistische Signifikanz von Ergebnisunterschieden

Key Points

Key points are not available for this paper at this time.

Abstract

Die Überprüfung der statistischen Signifikanz von Unterschieden in den Werten von Metriken wie Recall, Precision und balanced F-score ist ein notwendiger Bestandteil der empirischen Verarbeitung natürlicher Sprache. Leider zeigen unsere Experimente, dass viele häufig verwendete Tests oft die Signifikanz unterschätzen und somit weniger wahrscheinlich Unterschiede zwischen verschiedenen Techniken erkennen. Diese Unterschätzung resultiert aus einer Annahme der Unabhängigkeit, die häufig verletzt wird. Wir weisen auf einige nützliche Tests hin, die diese Annahme nicht treffen, einschließlich rechenintensiver Randomisierungstests.

Bookmark

View Full Paper

Bookmark

View Full Paper

Genauere Tests für die statistische Signifikanz von Ergebnisunterschieden

Key Points

Abstract

Cite This Study