June 9, 2024Open Access

검증의 연쇄: 대형 언어 모델에 대한 백도어 공격 탐지

Key Points

Key points are not available for this paper at this time.

Abstract

백도어 공격은 대형 언어 모델(LLM)에 심각한 위협을 제기하며, 특히 API 통합 및 프롬프트 엔지니어링을 제공하는 제3자 서비스의 증가로 인해 더욱 그렇습니다. 신뢰할 수 없는 제3자는 LLM에 백도어를 심어 사용자의 쿼리에 악성 지침을 포함시켜 위험을 초래할 수 있습니다. 백도어가 손상된 LLM은 공격자가 미리 정해 놓은 특정 트리거가 포함된 입력이 주어질 때 악성 출력을 생성합니다. 모델 매개변수 미세 조정 및 기울기 계산을 주로 포함하는 전통적인 방어 전략은 LLM의 방대한 계산 요구 사항과 깨끗한 데이터 요구 사항으로 인해 불충분합니다. 본 논문에서는 이러한 문제를 해결하기 위한 새로운 솔루션인 검증의 연쇄(Chain-of-Scrutiny, CoS)를 제안합니다. 백도어 공격은 본질적으로 트리거에서 목표 출력으로의 단축 경로를 생성하므로, 추론 지원이 부족합니다. 따라서 CoS는 LLM이 입력에 대한 자세한 추론 단계를 생성하도록 안내한 다음, 최종 답변과의 일관성을 보장하기 위해 추론 과정을 검토합니다. 일관성이 없을 경우 공격을 나타낼 수 있습니다. CoS는 LLM에 대한 블랙박스 접근만을 요구하므로, API에 접근 가능한 LLM에 대한 실용적인 방어를 제공합니다. 이는 사용자 친화적이며, 사용자가 스스로 방어를 수행할 수 있도록 합니다. 자연어에 의해 구동되는 전체 방어 과정은 사용자에게 투명합니다. 우리는 다양한 작업과 LLM에서 CoS의 효과성을 광범위한 실험을 통해 검증합니다. 또한 실험 결과는 CoS가 더 강력한 LLM에 더 이익을 제공함을 보여줍니다.

검증의 연쇄: 대형 언어 모델에 대한 백도어 공격 탐지

Key Points

Abstract

Cite This Study

Also Consider

Also Consider