May 1, 2024Open Access

Sind Modelle auf Text ohne geschlechtsspezifische Sprache voreingenommen?

Key Points

Key points are not available for this paper at this time.

Abstract

Die Forschung zu Geschlechterbias war entscheidend, um unerwünschte Verhaltensweisen in großen Sprachmodellen offenzulegen und ernsthafte Geschlechterstereotypen im Zusammenhang mit Berufen und Emotionen aufzudecken. Eine wichtige Beobachtung in vorherigen Arbeiten ist, dass Modelle Stereotypen verstärken, als Folge der geschlechtsspezifischen Korrelationen, die in den Trainingsdaten vorhanden sind. In diesem Papier konzentrieren wir uns auf Bias, bei dem der Einfluss der Trainingsdaten unklar ist, und adressieren stattdessen die Frage: Zeigen Sprachmodelle immer noch Geschlechterbias in nicht-stereotypischen Situationen? Dazu führen wir UnStereoEval (USE) ein, einen neuartigen Rahmen zur Untersuchung von Geschlechterbias in stereotypefreien Szenarien. USE definiert eine satzbezogene Punktzahl basierend auf den Statistiken der Vortrainingsdaten, um zu bestimmen, ob der Satz minimale Wort-Geschlechter-Assoziationen enthält. Um die Fairness beliebter Sprachmodelle in stereotypefreien Szenarien systematisch zu bewerten, nutzen wir USE, um Benchmarks automatisch zu generieren, ohne geschlechtsspezifische Sprache. Durch die Nutzung von USEs satzbezogener Punktzahl passen wir auch vorherige Benchmarks zum Geschlechterbias (Winobias und Winogender) für die nicht-stereotypische Bewertung um. Überraschenderweise finden wir eine niedrige Fairness über alle 28 getesteten Modelle hinweg. Konkret zeigen Modelle in nur 9%-41% der stereotypefreien Sätze faires Verhalten, was darauf hindeutet, dass Bias nicht ausschließlich aus der Präsenz geschlechtsspezifischer Begriffe resultiert. Diese Ergebnisse werfen wichtige Fragen darüber auf, woher die zugrunde liegenden Modellvorurteile kommen, und heben die Notwendigkeit einer systematischeren und umfassenderen Bias-Bewertung hervor. Wir veröffentlichen den vollständigen Datensatz und den Code unter https://ucinlp.github.io/unstereo-eval.

Sind Modelle auf Text ohne geschlechtsspezifische Sprache voreingenommen?

Key Points

Abstract

Cite This Study

Also Consider

Also Consider