March 5, 2024Open Access

InjecAgent: टूल-एकीकृत बड़े भाषा मॉडल एजेंटों में अप्रत्यक्ष प्रम्प्ट इंजेक्शन का बेंचमार्किंग

Key Points

Key points are not available for this paper at this time.

Abstract

हाल के कार्यों में LLMs को एजेंटों के रूप में प्रस्तुत किया गया है, जिससे उन्हें उपकरणों तक पहुंच, क्रियाएँ करने और बाहरी सामग्री (जैसे, ई-मेल या वेबसाइटें) के साथ बातचीत करने की अनुमति मिलती है। हालांकि, बाहरी सामग्री अप्रत्यक्ष प्रम्प्ट इंजेक्शन (IPI) हमलों का जोखिम प्रस्तुत करती है, जिसमें दुर्भावनापूर्ण निर्देश LLMs द्वारा संसाधित सामग्री में सम्मिलित होते हैं, जो इन एजेंटों को उपयोगकर्ताओं के खिलाफ हानिकारक कार्य करने के लिए मजबूर करते हैं। ऐसे हमलों के संभावित गंभीर परिणामों को ध्यान में रखते हुए, इन जोखिमों का आकलन और कमी लाने के लिए मानक स्थापित करना आवश्यक है। इस कार्य में, हम InjecAgent का परिचय देते हैं, जो IPI हमलों के प्रति टूल-एकीकृत LLM एजेंटों की भेद्यता का आकलन करने के लिए डिज़ाइन किया गया एक बेंचमार्क है। InjecAgent में 1,054 परीक्षण मामलों का समावेश है, जो 17 विभिन्न उपयोगकर्ता उपकरणों और 62 हमलावर उपकरणों को कवर करता है। हम हमले के उद्देश्यों को दो मुख्य प्रकारों में वर्गीकृत करते हैं: उपयोगकर्ताओं के लिए प्रत्यक्ष नुकसान और निजी डेटा का निष्कासन। हम 30 विभिन्न LLM एजेंटों का मूल्यांकन करते हैं और दिखाते हैं कि एजेंट IPI हमलों के प्रति संवेदनशील हैं, जिसमें ReAct-संचालित GPT-4 24% समय हमलों के प्रति संवेदनशील है। एक उन्नत सेटिंग में आगे की जांच, जहां हमलावर के निर्देशों को हैकिंग प्रम्प्ट के साथ मजबूत किया गया है, सफलता दर को और बढ़ाती है, जिससे ReAct-संचालित GPT-4 पर हमले की सफलता दर लगभग दोगुना हो जाती है। हमारे निष्कर्ष LLM एजेंटों के व्यापक तैनात होने के बारे में प्रश्न उठाते हैं। हमारा बेंचमार्क https://github.com/uiuc-kang-lab/InjecAgent पर उपलब्ध है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper