Key points are not available for this paper at this time.
최근 연구에 따르면, 심층 신경망(DNNs)은 회피 및 백도어(오염) 공격을 포함한 적대적 공격에 취약합니다. 방어 측에서는 회피 공격에 대한 경험적 및 입증된 강건성을 향상시키기 위한 집중적인 노력이 진행되어 왔으나, 백도어 공격에 대한 입증된 강건성은 여전히 대부분 탐구되지 않았습니다. 본 논문에서는 일반적인 위협 모델에 대한 기계 학습 모델의 강건성을 인증하는 데 중점을 둡니다. 먼저 무작위 스무딩 기법을 통해 통합된 프레임워크를 제공하고, 이를 통해 회피 및 백도어 공격에 대한 강건성을 인증하는 방법을 보여줍니다. 그런 다음, 훈련된 모델을 부드럽게 하고 백도어 공격에 대한 강건성을 인증하는 첫 번째 강건 훈련 프로세스인 RAB를 제안합니다. 우리는 RAB로 훈련된 기계 학습 모델의 강건성 경계를 증명하고 우리의 강건성 경계가 타이트하다는 것을 증명합니다. 또한, K-최근접 이웃 분류기와 같은 단순 모델에 대해 효율적으로 강건하게 스무딩된 모델을 훈련하는 것이 가능하다는 점을 이론적으로 보여주며, 이러한 모델을 위해 노이즈 분포에서 샘플링할 필요를 없애는 정확한 스무드 훈련 알고리즘을 제안합니다. 경험적으로, 우리는 MNIST, CIFAR-10 및 ImageNette 데이터 세트에서 DNNs, 서포트 벡터 머신 및 K-NN 모델과 같은 다양한 기계 학습(ML) 모델에 대한 종합적인 실험을 수행하고 백도어 공격에 대한 인증된 강건성을 위한 첫 번째 벤치마크를 제공합니다. 또한, 제안된 정확한 알고리즘의 장점을 입증하기 위해 스팸 데이터 세트에서 K-NN 모델을 평가합니다. 이론 분석과 다양한 ML 모델 및 데이터 세트에 대한 종합적인 평가는 일반적인 훈련 시간 공격에 대한 추가 강건한 학습 전략에 대한 통찰을 제공합니다.
Weber et al. (Thu,)는 이 질문을 연구했습니다.