Key points are not available for this paper at this time.
Die Überprüfung der statistischen Signifikanz von Unterschieden in den Werten von Metriken wie Recall, Precision und balanced F-score ist ein notwendiger Bestandteil der empirischen Verarbeitung natürlicher Sprache. Leider zeigen unsere Experimente, dass viele häufig verwendete Tests oft die Signifikanz unterschätzen und somit weniger wahrscheinlich Unterschiede zwischen verschiedenen Techniken erkennen. Diese Unterschätzung resultiert aus einer Annahme der Unabhängigkeit, die häufig verletzt wird. Wir weisen auf einige nützliche Tests hin, die diese Annahme nicht treffen, einschließlich rechenintensiver Randomisierungstests.
Alexander Yeh (Sat,) untersuchte diese Frage.