What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

강제하지 않고 안내하기: 불필요한 제약을 제거하여 LLM에 대한 탈옥 공격의 전이 가능성 향상

Key Points

불필요한 제약을 제거하면 그래디언트 기반 탈옥 공격의 전이 가능성이 크게 향상됩니다.
이 연구는 목표 모델들에서 전이 공격 성공률을 18.4%에서 50.3%로 증가시키는 성과를 달성했습니다.
식별된 주요 제약으로는 응답 패턴 제약과 토큰 꼬리 제약이 포함됩니다.
이 방법은 여러 대형 언어 모델에서 탈옥 행동의 제어 가능성과 안정성을 향상시킵니다.

Abstract

탈옥 공격은 대형 언어 모델(LLM)에서 안전하지 않은 행동을 유도할 수 있지만, 이러한 공격의 전이 가능성은 다양한 모델 간에 제한적입니다. 본 연구는 백박스 모델 공격을 위한 표준 접근법 중 하나인 그래디언트 기반 탈옥 방법의 전이 가능성을 이해하고 향상시키는 것을 목표로 합니다. 최적화 과정에 대한 자세한 분석을 통해, 우리는 전이 가능성을 설명하고 응답 패턴 제약 및 토큰 꼬리 제약과 같은 불필요한 제약을 주요 장벽으로 식별하는 새로운 개념적 프레임워크를 소개합니다. 이러한 불필요한 제약을 제거하면 그래디언트 기반 공격의 전이 가능성과 제어 가능성이 크게 향상됩니다. 출발 모델로 Llama-3-8B-Instruct를 평가한 결과, 우리의 방법은 안전 수준이 다양한 목표 모델 집합에서 전체 전이 공격 성공률(T-ASR)을 18.4%에서 50.3%로 증가시켰으며, 출발 및 목표 모델 모두에서 탈옥 행동의 안정성과 제어 가능성을 개선했습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper