탈옥 공격은 대형 언어 모델(LLM)에서 안전하지 않은 행동을 유도할 수 있지만, 이러한 공격의 전이 가능성은 다양한 모델 간에 제한적입니다. 본 연구는 백박스 모델 공격을 위한 표준 접근법 중 하나인 그래디언트 기반 탈옥 방법의 전이 가능성을 이해하고 향상시키는 것을 목표로 합니다. 최적화 과정에 대한 자세한 분석을 통해, 우리는 전이 가능성을 설명하고 응답 패턴 제약 및 토큰 꼬리 제약과 같은 불필요한 제약을 주요 장벽으로 식별하는 새로운 개념적 프레임워크를 소개합니다. 이러한 불필요한 제약을 제거하면 그래디언트 기반 공격의 전이 가능성과 제어 가능성이 크게 향상됩니다. 출발 모델로 Llama-3-8B-Instruct를 평가한 결과, 우리의 방법은 안전 수준이 다양한 목표 모델 집합에서 전체 전이 공격 성공률(T-ASR)을 18.4%에서 50.3%로 증가시켰으며, 출발 및 목표 모델 모두에서 탈옥 행동의 안정성과 제어 가능성을 개선했습니다.
Yang et al. (Tue,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: