August 5, 2022Open Access

Lernen aus Daten im gemischten adversarialen und nicht-adversarialen Fall: Die Helfer finden und die Trolls ignorieren

Key Points

Key points are not available for this paper at this time.

Abstract

Das Versprechen der Interaktion zwischen intelligenten Gesprächsagenten und Menschen besteht darin, dass Modelle aus solchem Feedback lernen können, um sich zu verbessern. Leider werden solche Interaktionen in der Praxis nicht immer menschliche Äußerungen beinhalten, die harmlos oder von hoher Qualität sind, sondern eine Mischung aus engagierten (Helfern) und nicht engagierten oder sogar böswilligen Benutzern (Trollen) umfassen. In dieser Arbeit untersuchen wir, wie man robustes Lernen in einer solchen Umgebung durchführen kann. Wir stellen eine Benchmark-Bewertung, SafetyMix, vor, die Methoden bewerten kann, die sicheres vs. toxisches Sprache in einer Vielzahl von adversarialen Einstellungen lernen, um ihre Robustheit zu testen. Wir schlagen mehrere mildernde Lernalgorithmen vor und analysieren diese, die Trolle entweder auf der Beispiel- oder auf der Benutzerebene identifizieren. Unser Hauptergebnis ist, dass benutzerbasierte Methoden, die berücksichtigen, dass Troll-Benutzer über multiple Beispiele hinweg adversiales Verhalten zeigen, in verschiedenen Einstellungen auf unserer Benchmark am besten funktionieren. Wir testen diese Methoden dann in einem weiteren realen Kontext von Gesprächen, die während des Einsatzes gesammelt wurden, mit ähnlichen Ergebnissen.

Bookmark

View Full Paper

Bookmark

View Full Paper

Lernen aus Daten im gemischten adversarialen und nicht-adversarialen Fall: Die Helfer finden und die Trolls ignorieren

Key Points

Abstract

Cite This Study