March 5, 2024Open Access

InjecAgent: 도구 통합 대형 언어 모델 에이전트에서 간접 프롬프트 주입 벤치마킹

Key Points

Key points are not available for this paper at this time.

Abstract

최근 연구에서는 LLM을 에이전트로 구현하여 도구에 접근하고 행동을 수행하며 외부 콘텐츠(예: 이메일 또는 웹사이트)와 상호 작용할 수 있도록 하고 있습니다. 그러나 외부 콘텐츠는 LLM이 처리하는 콘텐츠 내에 악의적인 지침이 포함되어 이러한 에이전트가 사용자를 대상으로 해로운 행동을 실행하도록 조작할 수 있는 간접 프롬프트 주입(IPI) 공격의 위험을 초래합니다. 이러한 공격의 잠재적으로 심각한 결과를 고려할 때, 이러한 위험을 평가하고 완화하기 위한 벤치마크를 설정하는 것이 필수적입니다. 본 연구에서는 IPI 공격에 대한 도구 통합 LLM 에이전트의 취약성을 평가하기 위해 설계된 벤치마크인 InjecAgent를 소개합니다. InjecAgent는 17개의 다양한 사용자 도구와 62개의 공격자 도구를 아우르는 1,054개의 테스트 사례로 구성됩니다. 우리는 공격의 의도를 사용자에게 직접 해를 끼치는 유형과 개인 데이터를 유출하는 유형으로 두 가지 주요 유형으로 분류합니다. 우리는 30개의 서로 다른 LLM 에이전트를 평가하고 에이전트가 IPI 공격에 취약하다는 것을 보여줍니다. ReAct 프롬프트가 적용된 GPT-4는 24%의 경우 공격에 취약합니다. 공격자 지침이 해킹 프롬프트로 강화된 향상된 설정에 대한 추가 조사는 성공률을 추가적으로 증가시켜 ReAct 프롬프트가 적용된 GPT-4에 대한 공격 성공률을 거의 두 배로 늘리는 결과를 보입니다. 우리의 발견은 LLM 에이전트의 광범위한 배치에 대한 질문을 제기합니다. 우리의 벤치마크는 https://github.com/uiuc-kang-lab/InjecAgent에서 사용할 수 있습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper