May 26, 2020Open Access

Merkmalsbasierte Erklärungen helfen nicht dabei, Fehlklassifikationen von Online-Toxizität zu erkennen

Key Points

Key points are not available for this paper at this time.

Abstract

Wir präsentieren eine experimentelle Bewertung der Auswirkungen von Erklärungen im Stil der Merkmalzuordnung auf die menschliche Leistung bei der Vorhersage der Konsenstoxizität von Social-Media-Beiträgen mit Ratschlägen von einem unzuverlässigen maschinellen Lernmodell. Damit tragen wir zu einem kleinen, aber wachsenden Literaturbestand bei, der den Nutzen von interpretiertem maschinellen Lernen in Bezug auf menschliche Ergebnisse untersucht. Wir bewerten auch zum ersten Mal interpretiertes maschinelles Lernen im wichtigen Bereich der Online-Toxizität, wo vollautomatisierte Methoden als unzureichend zur Messung toxischen Verhaltens kritisiert wurden. Wir stellen fest, dass Erklärungen im Gegensatz zu den Erwartungen keinen signifikanten Einfluss auf die Genauigkeit oder die Übereinstimmung mit den Modellergebnissen haben, obwohl sie die Verteilung der Fehler der Probanden etwas verändern und die kognitive Belastung der Aufgabe für die Probanden verringern. Unsere Ergebnisse tragen dazu bei, eine interessante Erwartungslücke im Bereich des interpretierten maschinellen Lernens zwischen der allgemeinen Aufregung, die das Feld ausgelöst hat, und den mehrdeutigen Ergebnissen jüngster experimenteller Arbeiten, einschließlich dieser Studie, zu erkennen.

KI fragen

Bookmark

View Full Paper