Key points are not available for this paper at this time.
재식별은 개인 기록을 포함하는 공공 데이터 세트에 대한 주요 프라이버시 위협입니다. 많은 프라이버시 보호 알고리즘은 우편번호와 생년월일과 같은 '준식별자' 속性的 일반화 및 억제에 의존합니다. 그들의 목표는 일반적으로 구문상의 위생 처리를 하는 것입니다: 예를 들어, k-익명성은 각 '준식별자' 튜플이 최소한 k개의 기록에 나타나도록 요구하며, l-다양성은 각 준식별자에 대한 민감한 속성의 분포가 높은 엔트로피를 가지도록 요구합니다. 위생 처리된 데이터의 유용성 또한 구문적으로 측정되며, 적용된 일반화 단계의 수나 같은 준식별자를 가진 기록의 수로 평가됩니다. 본 논문에서는 준식별자의 일반화 및 억제가 단순히 준식별자를 민감한 속성과 분리하는 트리비얼한 위생 처리보다 어떤 이점을 제공하는지 질문합니다. 이전 연구에서는 k-익명 데이터베이스가 데이터 마이닝에 유용할 수 있음을 보여주었지만, k-익명화는 어떤 프라이버시도 보장하지 않습니다. 대조적으로, 우리는 프라이버시(위생 처리된 기록에서 공격자가 얼마나 많은 것을 배울 수 있는가?)와 유용성 간의 트레이드오프를 측정하며, 이는 같은 위생 처리된 기록에 대해 실행된 데이터 마이닝 알고리즘의 정확도로 측정됩니다.
Brickell et al. (Sun,) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: