January 1, 2018Open Access

Adversarielle Entfernung demografischer Attribute aus Textdaten

Key Points

Key points are not available for this paper at this time.

Abstract

Jüngste Fortschritte im Bereich des Representation Learning und des adversarialen Trainings scheinen erfolgreich unerwünschte Merkmale aus der gelernten Darstellung zu entfernen. Wir zeigen, dass demografische Informationen von Autoren in den intermediären Darstellungen, die von textbasierten neuronalen Klassifikatoren gelernt werden, kodiert sind und daraus wiederhergestellt werden können. Dies impliziert, dass Entscheidungen von Klassifikatoren, die auf Textdaten trainiert wurden, nicht unabhängig von - und wahrscheinlich abhängig von - demografischen Attributen sind. Bei dem Versuch, solche demografischen Informationen mithilfe von adversarialem Training zu entfernen, stellen wir fest, dass, während die adversarielle Komponente während des Trainings eine Genauigkeit auf Chance-Niveau im Entwicklungsdatensatz erreicht, ein nachträglicher Klassifikator, der auf den kodierten Sätzen aus dem ersten Teil trainiert wurde, immer noch erheblich höhere Klassifikationsgenauigkeiten auf denselben Daten erreicht. Dieses Verhalten ist über mehrere Aufgaben, demografische Eigenschaften und Datensätze hinweg konsistent. Wir erkunden mehrere Techniken, um die Effektivität der adversarialen Komponente zu verbessern. Unsere Hauptschlussfolgerung ist eine warnende: Verlassen Sie sich nicht auf das adversarielle Training, um eine invarianten Darstellung gegenüber sensiblen Merkmalen zu erreichen.

Bookmark

View Full Paper