Key points are not available for this paper at this time.
Die Verwendung synthetischer Daten gewinnt an Dynamik, teilweise aufgrund der Nichtverfügbarkeit ursprünglicher Daten aufgrund von Datenschutz- und rechtlichen Überlegungen und teilweise aufgrund ihrer Nützlichkeit als Ergänzung zu den authentischen Daten. Generative Adversarial Networks (GANs), ein Paradebeispiel generativer Modelle, ursprünglich für Bilder und subsequently für tabellarische Daten, haben viele der aktuellen Hochleistungs-Synthesizer hervorgebracht. Mit der Verbesserung von GANs ähnelt die synthetisierte Daten zunehmend den echten Daten, was das Risiko birgt, die Privatsphäre zu verletzen. Differentielle Privatsphäre (DP) bietet theoretische Garantien für den Datenschutzverlust, verschlechtert jedoch die Datenutilität. Den besten Kompromiss zu finden, bleibt eine herausfordernde Forschungsfrage. In dieser Studie schlagen wir CTAB-GAN+ vor, ein neuartiges bedingtes tabellarisches GAN. CTAB-GAN+ verbessert den Stand der Technik, indem es (i) nachgelagerte Verluste zu bedingten GANs hinzufügt, um eine höhere Nützlichkeit synthetischer Daten in den Bereichen Klassifikation und Regression zu erreichen; (ii) den Wasserstein-Verlust mit Gradientenstrafe für eine bessere Trainingskonvergenz verwendet; (iii) neuartige Encoder einführt, die auf gemischte kontinuierliche-kategorielle Variablen und Variablen mit unausgewogenen oder schiefen Daten abzielen; und (iv) mit DP stochastischem Gradientenabstieg trainiert, um strenge Datenschutzgarantien durchzusetzen. Wir evaluieren CTAB-GAN+ umfassend hinsichtlich statistischer Ähnlichkeit und maschinelles Lernen gegen die aktuellen tabellarischen GANs. Die Ergebnisse zeigen, dass CTAB-GAN+ datenschutzfreundliche Daten mit mindestens 21,9 % höherer Nützlichkeit für maschinelles Lernen (d.h. F1-Score) über mehrere Datensätze und Lernaufgaben unter gegebenem Datenschutzziel synthetisiert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zilong Zhao
Liaoning Technical University
Aditya Kunar
Delft University of Technology
Robert Birke
IBM (United States)
SHILAP Revista de lepidopterología
Frontiers in Big Data
Technical University of Munich
Delft University of Technology
University of Turin
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Mon,) haben diese Frage untersucht.
synapsesocial.com/papers/69dff744bdd89ea53186084d — DOI: https://doi.org/10.3389/fdata.2023.1296508
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: