Dados sintéticos que preservam a privacidade oferecem uma solução promissora para aproveitar dados segregados em domínios de alto risco onde as informações são compartimentadas por razões regulatórias, de privacidade ou institucionais. Esta pesquisa fornece uma estrutura abrangente para entender o cenário dos dados sintéticos que preservam a privacidade, apresentando os fundamentos teóricos dos modelos gerativos e da privacidade diferencial, seguido de uma revisão dos métodos de ponta em dados tabulares, imagens e texto. Nossa síntese de abordagens de avaliação destaca a troca fundamental entre utilidade para tarefas posteriores e garantias de privacidade, enquanto identifica lacunas críticas na pesquisa: a falta de benchmarks realistas que representem domínios especializados e avaliações empíricas insuficientes necessárias para contextualizar garantias formais. Através da análise empírica de quatro métodos líderes em cinco conjuntos de dados do mundo real de domínios especializados, demonstramos uma degradação significativa no desempenho sob restrições de privacidade realistas, revelando uma lacuna substancial entre os resultados relatados em benchmarks de domínio geral e o desempenho em dados específicos do domínio. Nossas descobertas destacam desafios chave, incluindo vazamento de privacidade não contabilizado, verificação empírica insuficiente de garantias formais e um déficit crítico de benchmarks realistas. Esses desafios sublinham a necessidade de estruturas de avaliação robustas, benchmarks padronizados para domínios especializados e técnicas aprimoradas para atender aos requisitos únicos de campos sensíveis à privacidade, de modo que essa tecnologia possa cumprir seu considerável potencial.
Schlegel et al. (Quarta-feira,) estudaram esta questão.