Key points are not available for this paper at this time.
हाल के कार्यों में LLMs को एजेंटों के रूप में प्रस्तुत किया गया है, जिससे उन्हें उपकरणों तक पहुंच, क्रियाएँ करने और बाहरी सामग्री (जैसे, ई-मेल या वेबसाइटें) के साथ बातचीत करने की अनुमति मिलती है। हालांकि, बाहरी सामग्री अप्रत्यक्ष प्रम्प्ट इंजेक्शन (IPI) हमलों का जोखिम प्रस्तुत करती है, जिसमें दुर्भावनापूर्ण निर्देश LLMs द्वारा संसाधित सामग्री में सम्मिलित होते हैं, जो इन एजेंटों को उपयोगकर्ताओं के खिलाफ हानिकारक कार्य करने के लिए मजबूर करते हैं। ऐसे हमलों के संभावित गंभीर परिणामों को ध्यान में रखते हुए, इन जोखिमों का आकलन और कमी लाने के लिए मानक स्थापित करना आवश्यक है। इस कार्य में, हम InjecAgent का परिचय देते हैं, जो IPI हमलों के प्रति टूल-एकीकृत LLM एजेंटों की भेद्यता का आकलन करने के लिए डिज़ाइन किया गया एक बेंचमार्क है। InjecAgent में 1,054 परीक्षण मामलों का समावेश है, जो 17 विभिन्न उपयोगकर्ता उपकरणों और 62 हमलावर उपकरणों को कवर करता है। हम हमले के उद्देश्यों को दो मुख्य प्रकारों में वर्गीकृत करते हैं: उपयोगकर्ताओं के लिए प्रत्यक्ष नुकसान और निजी डेटा का निष्कासन। हम 30 विभिन्न LLM एजेंटों का मूल्यांकन करते हैं और दिखाते हैं कि एजेंट IPI हमलों के प्रति संवेदनशील हैं, जिसमें ReAct-संचालित GPT-4 24% समय हमलों के प्रति संवेदनशील है। एक उन्नत सेटिंग में आगे की जांच, जहां हमलावर के निर्देशों को हैकिंग प्रम्प्ट के साथ मजबूत किया गया है, सफलता दर को और बढ़ाती है, जिससे ReAct-संचालित GPT-4 पर हमले की सफलता दर लगभग दोगुना हो जाती है। हमारे निष्कर्ष LLM एजेंटों के व्यापक तैनात होने के बारे में प्रश्न उठाते हैं। हमारा बेंचमार्क https://github.com/uiuc-kang-lab/InjecAgent पर उपलब्ध है।
Zhan et al. (Tue,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: