बड़े भाषा मॉडल (LLM) एजेंट विभिन्न अनुप्रयोगों में बाहरी उपकरणों का उपयोग करके वातावरण के साथ बातचीत करके आश्चर्यजनक प्रदर्शन दिखाते हैं। हालाँकि, बाहरी उपकरणों का एकीकरण सुरक्षा जोखिमों को लाता है, जैसे अप्रत्यक्ष संकेत इंजेक्शन (IPI) हमले। IPI हमलों के लिए डिज़ाइन की गई सुरक्षा के बावजूद, उनकी मजबूती अनुकूलनात्मक हमलों के खिलाफ अपर्याप्त परीक्षण के कारण संदेहास्पद बनी रहती है। इस पेपर में, हम आठ विभिन्न सुरक्षाओं का मूल्यांकन करते हैं और अनुकूलनात्मक हमलों का उपयोग करके सभी को बायपास करते हैं, लगातार 50% से अधिक हमले की सफलता दर हासिल करते हैं। यह वर्तमान सुरक्षा में महत्वपूर्ण कमजोरियों को उजागर करता है। हमारा अनुसंधान यह दर्शाता है कि सुरक्षा डिज़ाइन करते समय अनुकूलनात्मक हमले के मूल्यांकन की आवश्यकता है ताकि मजबूती और विश्वसनीयता सुनिश्चित की जा सके। कोड यहाँ उपलब्ध है: https://github.com/uiuc-kang-lab/AdaptiveAttackAgent.
Zhan et al. (बुध,) ने इस प्रश्न का अध्ययन किया।