January 8, 2024Open Access

CTAB-GAN+: Verbesserung der Synthese tabellarischer Daten

Key Points

Key points are not available for this paper at this time.

Abstract

Die Verwendung synthetischer Daten gewinnt an Dynamik, teilweise aufgrund der Nichtverfügbarkeit ursprünglicher Daten aufgrund von Datenschutz- und rechtlichen Überlegungen und teilweise aufgrund ihrer Nützlichkeit als Ergänzung zu den authentischen Daten. Generative Adversarial Networks (GANs), ein Paradebeispiel generativer Modelle, ursprünglich für Bilder und subsequently für tabellarische Daten, haben viele der aktuellen Hochleistungs-Synthesizer hervorgebracht. Mit der Verbesserung von GANs ähnelt die synthetisierte Daten zunehmend den echten Daten, was das Risiko birgt, die Privatsphäre zu verletzen. Differentielle Privatsphäre (DP) bietet theoretische Garantien für den Datenschutzverlust, verschlechtert jedoch die Datenutilität. Den besten Kompromiss zu finden, bleibt eine herausfordernde Forschungsfrage. In dieser Studie schlagen wir CTAB-GAN+ vor, ein neuartiges bedingtes tabellarisches GAN. CTAB-GAN+ verbessert den Stand der Technik, indem es (i) nachgelagerte Verluste zu bedingten GANs hinzufügt, um eine höhere Nützlichkeit synthetischer Daten in den Bereichen Klassifikation und Regression zu erreichen; (ii) den Wasserstein-Verlust mit Gradientenstrafe für eine bessere Trainingskonvergenz verwendet; (iii) neuartige Encoder einführt, die auf gemischte kontinuierliche-kategorielle Variablen und Variablen mit unausgewogenen oder schiefen Daten abzielen; und (iv) mit DP stochastischem Gradientenabstieg trainiert, um strenge Datenschutzgarantien durchzusetzen. Wir evaluieren CTAB-GAN+ umfassend hinsichtlich statistischer Ähnlichkeit und maschinelles Lernen gegen die aktuellen tabellarischen GANs. Die Ergebnisse zeigen, dass CTAB-GAN+ datenschutzfreundliche Daten mit mindestens 21,9 % höherer Nützlichkeit für maschinelles Lernen (d.h. F1-Score) über mehrere Datensätze und Lernaufgaben unter gegebenem Datenschutzziel synthetisiert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zilong Zhao

Liaoning Technical University

Aditya Kunar

Delft University of Technology

Robert Birke

IBM (United States)

Journals

SHILAP Revista de lepidopterología

Frontiers in Big Data

Actions

Institutions

Technical University of Munich

Delft University of Technology

University of Turin

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CTAB-GAN+: Verbesserung der Synthese tabellarischer Daten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider