February 16, 2024Open Access

단어 치환 암호를 이용한 독점 대형 언어 모델의 탈옥

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLM)은 도덕적 및 윤리적 가이드라인과 일치하지만, 정렬 프로세스를 우회할 수 있는 탈옥(Jailbreak)이라는 창의적인 프롬프트에 여전히 취약합니다. 그러나 대부분의 탈옥 프롬프트는 LLM이 스스로 감지할 수 있는 자연어(주로 영어)로 된 유해한 질문을 포함합니다. 본 논문에서는 암호화 기술을 사용하여 인코딩된 탈옥 프롬프트를 제시합니다. 우리는 먼저 다양한 암호화 기술을 이용해 암호화된 여러 안전한 문장을 디코딩하는 최신 LLM인 GPT-4에 대한 파일럿 연구를 소개하며, 직관적인 단어 치환 암호가 가장 효과적으로 디코딩될 수 있음을 발견했습니다. 이 결과에 힘입어, 우리는 이 인코딩 기술을 탈옥 프롬프트 작성을 위해 사용합니다. 우리는 안전한 단어와 안전하지 않은 단어의 매핑을 제시하고, 이러한 매핑된 단어를 사용하여 안전하지 않은 질문을 합니다. 실험 결과, ChatGPT, GPT-4 및 Gemini-Pro를 포함한 최신 독점 모델에 대한 우리의 제안된 탈옥 접근법의 공격 성공률이 59.42%에 달함을 보여주었습니다. 또한 이러한 모델의 과도한 방어성을 논의합니다. 우리는 우리의 작업이 이러한 LLM을 더욱 강력하게 만들면서 디코딩 능력을 유지하는 방향으로 추가 연구를 장려할 것이라고 믿습니다.

단어 치환 암호를 이용한 독점 대형 언어 모델의 탈옥

Key Points

Abstract

Cite This Study