June 12, 2024Open Access

평균을 넘어: 개인 전이 학습을 위한 차등 개인 정보 보호 프로토타입

Key Points

DP 프로토타입은 강력한 개인 정보 보호 보장을 보장하면서 분류 성능을 향상시킨다.
실험에서 DPPL은 제한된 훈련 데이터로도 높은 정확도를 달성하여 불균형 데이터셋에서의 잠재력을 보여준다.
분석에는 개인 정보 제약 하에서 ML 모델의 개선된 결과를 위해 고급 확률적 경량화 방법 및 공개 데이터 활용이 포함되었다.

Abstract

기계 학습(ML) 모델은 훈련 데이터셋에서 개인 정보를 유출하는 것으로 나타났다. 차등 프라이버시(DP)는 일반적으로 차등 개인 정보 보호 확률적 경량화 알고리즘(DP-SGD)을 통해 구현되며, 모델로부터의 유출을 제한하기 위한 표준 솔루션이 되었다. 최근 개선에도 불구하고, DP-SGD 기반의 개인 학습 접근 방식은 여전히 높은 프라이버시(1)와 낮은 데이터 영역, 그리고 개인 훈련 데이터셋이 불균형할 때 어려움을 겪는다. 이러한 한계를 극복하기 위해, 우리는 개인 전이 학습을 위한 새로운 패러다임으로서 차등 개인 정보 보호 프로토타입 학습(DPPL)을 제안한다. DPPL은 공개적으로 사전 훈련된 인코더를 활용하여 개인 데이터에서 특징을 추출하고, 임베딩 공간에서 각 개인 클래스를 나타내는 DP 프로토타입을 생성하며, 이를 추론을 위해 공개할 수 있다. 우리의 DP 프로토타입은 몇 개의 개인 훈련 데이터 포인트만으로 얻을 수 있으며 반복적인 노이즈 추가 없이도 높은 활용도를 제공하고 순수 DP 개념 하에서도 강력한 개인 정보 보호 보장을 제공한다. 우리는 또한 인코더의 사전 훈련을 넘어 공개 데이터를 활용할 때 개인 정보-유틸리티 트레이드 오프가 추가로 개선될 수 있음을 보여준다: 특히, 우리는 인코더 훈련에 사용된 공개 데이터 포인트에서 개인적으로 DP 프로토타입을 샘플링할 수 있다. 네 가지 최첨단 인코더, 네 가지 비전 데이터셋 및 다양한 데이터와 불균형 상태에서의 실험 평가 결과, DPPL은 강력한 개인 정보 보호 보장 하에 도전적인 개인 학습 설정에서 높은 성능을 보임을 입증한다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper