Key points are not available for this paper at this time.
Das Versprechen der Interaktion zwischen intelligenten Gesprächsagenten und Menschen besteht darin, dass Modelle aus solchem Feedback lernen können, um sich zu verbessern. Leider werden solche Interaktionen in der Praxis nicht immer menschliche Äußerungen beinhalten, die harmlos oder von hoher Qualität sind, sondern eine Mischung aus engagierten (Helfern) und nicht engagierten oder sogar böswilligen Benutzern (Trollen) umfassen. In dieser Arbeit untersuchen wir, wie man robustes Lernen in einer solchen Umgebung durchführen kann. Wir stellen eine Benchmark-Bewertung, SafetyMix, vor, die Methoden bewerten kann, die sicheres vs. toxisches Sprache in einer Vielzahl von adversarialen Einstellungen lernen, um ihre Robustheit zu testen. Wir schlagen mehrere mildernde Lernalgorithmen vor und analysieren diese, die Trolle entweder auf der Beispiel- oder auf der Benutzerebene identifizieren. Unser Hauptergebnis ist, dass benutzerbasierte Methoden, die berücksichtigen, dass Troll-Benutzer über multiple Beispiele hinweg adversiales Verhalten zeigen, in verschiedenen Einstellungen auf unserer Benchmark am besten funktionieren. Wir testen diese Methoden dann in einem weiteren realen Kontext von Gesprächen, die während des Einsatzes gesammelt wurden, mit ähnlichen Ergebnissen.
Ju et al. (Fr,) untersuchten diese Frage.