Key points are not available for this paper at this time.
대형 언어 모델(LLM)이 개인 정보를 기억하고 공개할 수 있다는 우려, 특히 개인 식별 정보(PII)에 대한 우려가 커지고 있습니다. 이러한 개인 정보 위험을 완화하기 위한 많은 노력이 이루어졌습니다. 그러나 LLM이 PII를 기억하는 메커니즘은 여전히 불분명합니다. 이 격차를 해소하기 위해 우리는 LLM 내의 PII 민감 뉴런(개인 정보 뉴런)을 정확히 찾아내는 획기적인 방법을 소개합니다. 우리의 방법은 적대적 훈련을 통해 LLM에서 PII의 기억에 대한 특정 뉴런을 로컬라이즈하는 학습 가능한 이진 가중치 마스크를 사용합니다. 우리의 조사 결과, PII는 모든 레이어에 걸쳐 소수의 뉴런에 의해 기억된다는 것을 발견했으며, 이는 PII 특이성의 속성을 나타냅니다. 또한, 로컬라이즈된 개인 정보 뉴런을 비활성화하여 PII 위험 완화 가능성을 검증할 것을 제안합니다. 정량적 및 정성적 실험 모두 우리의 뉴런 위치 지정 알고리즘의 효과성을 입증합니다.
Chen et al. (Thu,) 이 질문을 연구했습니다.