Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 도덕적 및 윤리적 가이드라인과 일치하지만, 정렬 프로세스를 우회할 수 있는 탈옥(Jailbreak)이라는 창의적인 프롬프트에 여전히 취약합니다. 그러나 대부분의 탈옥 프롬프트는 LLM이 스스로 감지할 수 있는 자연어(주로 영어)로 된 유해한 질문을 포함합니다. 본 논문에서는 암호화 기술을 사용하여 인코딩된 탈옥 프롬프트를 제시합니다. 우리는 먼저 다양한 암호화 기술을 이용해 암호화된 여러 안전한 문장을 디코딩하는 최신 LLM인 GPT-4에 대한 파일럿 연구를 소개하며, 직관적인 단어 치환 암호가 가장 효과적으로 디코딩될 수 있음을 발견했습니다. 이 결과에 힘입어, 우리는 이 인코딩 기술을 탈옥 프롬프트 작성을 위해 사용합니다. 우리는 안전한 단어와 안전하지 않은 단어의 매핑을 제시하고, 이러한 매핑된 단어를 사용하여 안전하지 않은 질문을 합니다. 실험 결과, ChatGPT, GPT-4 및 Gemini-Pro를 포함한 최신 독점 모델에 대한 우리의 제안된 탈옥 접근법의 공격 성공률이 59.42%에 달함을 보여주었습니다. 또한 이러한 모델의 과도한 방어성을 논의합니다. 우리는 우리의 작업이 이러한 LLM을 더욱 강력하게 만들면서 디코딩 능력을 유지하는 방향으로 추가 연구를 장려할 것이라고 믿습니다.
Handa 외(금요일)가 이 질문을 연구했습니다.