April 3, 2020Open Access

Federierte Latente Dirichlet-Analyse: Ein auf lokaler differentieller Privatsphäre basierendes Framework

Key Points

Key points are not available for this paper at this time.

Abstract

Latente Dirichlet-Analyse (LDA) ist ein weit verbreitetes Themenmodell für industrielle Textmining-Anwendungen. Ihre Leistung beruht jedoch stark auf der Sammlung großer Mengen an Textdaten aus dem Alltag der Benutzer zur Modellierungsschulung. Eine solche Datensammlung birgt das Risiko schwerwiegender Datenschutzverletzungen, wenn der Datenanbieter unzuverlässig ist. Um die Privatsphäre von Textdaten zu schützen und gleichzeitig eine genaue Modellschulung zu ermöglichen, untersuchen wir das föderierte Lernen von LDA-Modellen. Das heißt, das Modell wird zwischen einem unzuverlässigen Datenanbieter und mehreren Benutzern gemeinsam trainiert, wobei die Rohtextdaten jedes Benutzers lokal gespeichert und nicht an den Datenanbieter hochgeladen werden. Zu diesem Zweck schlagen wir FedLDA vor, ein auf lokaler differentieller Privatsphäre (LDP) basierendes Framework für das föderierte Lernen von LDA-Modellen. Zentral in FedLDA ist ein neuartiger LDP-Mechanismus namens Random Response with Priori (RRP), der theoretische Garantien sowohl für den Datenschutz als auch für die Modellgenauigkeit bietet. Wir entwerfen auch Techniken zur Reduzierung der Kommunikationskosten zwischen dem Datenanbieter und den Benutzern während der Modellschulung. Umfangreiche Experimente mit drei offenen Datensätzen bestätigten die Wirksamkeit unserer Lösung.

Bookmark

View Full Paper