What type of study is this?

This is a Quantitative Study study.

October 12, 2025Open Access

Geração de Dados Sintéticos com Garantias Formais de Privacidade: Estado da Arte e o Caminho à Frente

Key Points

A análise revela uma degradação significativa no desempenho dos métodos de dados sintéticos quando restrições de privacidade realistas são aplicadas, ressaltando os desafios de privacidade.
Avaliações empíricas mostram uma lacuna marcante entre os resultados obtidos a partir de benchmarks gerais e aqueles derivados de dados específicos do domínio, destacando a contextualização insuficiente.
A revisão identifica lacunas críticas na pesquisa, como a falta de benchmarks realistas e verificação empírica de garantias formais de privacidade.
Desafios chave incluem vazamento de privacidade não contabilizado e a necessidade de estruturas de avaliação robustas para otimizar aplicações sensíveis à privacidade.

Abstract

Dados sintéticos que preservam a privacidade oferecem uma solução promissora para aproveitar dados segregados em domínios de alto risco onde as informações são compartimentadas por razões regulatórias, de privacidade ou institucionais. Esta pesquisa fornece uma estrutura abrangente para entender o cenário dos dados sintéticos que preservam a privacidade, apresentando os fundamentos teóricos dos modelos gerativos e da privacidade diferencial, seguido de uma revisão dos métodos de ponta em dados tabulares, imagens e texto. Nossa síntese de abordagens de avaliação destaca a troca fundamental entre utilidade para tarefas posteriores e garantias de privacidade, enquanto identifica lacunas críticas na pesquisa: a falta de benchmarks realistas que representem domínios especializados e avaliações empíricas insuficientes necessárias para contextualizar garantias formais. Através da análise empírica de quatro métodos líderes em cinco conjuntos de dados do mundo real de domínios especializados, demonstramos uma degradação significativa no desempenho sob restrições de privacidade realistas, revelando uma lacuna substancial entre os resultados relatados em benchmarks de domínio geral e o desempenho em dados específicos do domínio. Nossas descobertas destacam desafios chave, incluindo vazamento de privacidade não contabilizado, verificação empírica insuficiente de garantias formais e um déficit crítico de benchmarks realistas. Esses desafios sublinham a necessidade de estruturas de avaliação robustas, benchmarks padronizados para domínios especializados e técnicas aprimoradas para atender aos requisitos únicos de campos sensíveis à privacidade, de modo que essa tecnologia possa cumprir seu considerável potencial.

Geração de Dados Sintéticos com Garantias Formais de Privacidade: Estado da Arte e o Caminho à Frente

Key Points

Abstract

Cite This Study