Key points are not available for this paper at this time.
Mit der Einführung von (großen) Sprachmodellen gibt es erhebliche Bedenken hinsichtlich der unbeabsichtigten Vorurteile, die solche Modelle aus ihren Trainingsdaten übernehmen können. Zahlreiche Studien haben gezeigt, dass solche Modelle Geschlechterstereotypen sowie geografische und rassistische Vorurteile und andere Vorurteile verbreiten. Während bestehende Arbeiten dieses Problem durch Datenvorverarbeitung und Entbiasierung von Einbettungen angehen, erfordern die vorgeschlagenen Methoden viele Rechenressourcen und Annotationsefforts und sind auf bestimmte Arten von Vorurteilen beschränkt. Um diese Probleme anzugehen, stellen wir REFINE-LM vor, eine Entbiasierungsmethode, die Verstärkungslernen nutzt, um verschiedene Arten von Vorurteilen ohne Feintuning zu bearbeiten. Durch das Training eines einfachen Modells auf der Grundlage der Wortwahrscheinlichkeitsverteilung eines Sprachmodells ermöglicht unsere bias-agnostische Verstärkungslernmethodik die Entbiasierung von Modellen ohne menschliche Annotationen oder signifikante Rechenressourcen. Experimente, die an einer Vielzahl von Modellen, einschließlich mehrerer SPrachmodelle, durchgeführt wurden, zeigen, dass unsere Methode (i) stereotype Vorurteile signifikant reduziert und dabei die Leistung der Sprachmodelle erhält; (ii) auf verschiedene Arten von Vorurteilen anwendbar ist und über Kontexte wie Geschlecht, Ethnizität, Religion und Nationalität hinaus generalisiert; und (iii) kostengünstig zu trainieren ist.
Qureshi et al. (Sun) untersuchten diese Frage.