What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

अनुकूलनात्मक हमले अप्रत्यक्ष संकेत इंजेक्शन के खिलाफ सुरक्षा तोड़ते हैं LLM एजेंटों पर हमले

Key Points

अनुकूलनात्मक हमलों ने सभी मूल्यांकन की गई सुरक्षाओं को बायपास किया, जो सुरक्षा उपायों में महत्वपूर्ण कमजोरियों को इंगित करता है।
आठ विभिन्न सुरक्षाओं का परीक्षण करते समय 50% से अधिक की हमले की सफलता दर लगातार हासिल की गई।
अप्रत्यक्ष संकेत इंजेक्शन के खिलाफ वर्तमान सुरक्षाएँ मजबूती में कमी रखती हैं और अनुकूलनात्मक हमलों के खिलाफ अधिक व्यापक मूल्यांकन की आवश्यकता है।
अनुसंधान LLM एजेंटों के लिए सुरक्षा डिज़ाइन में अनुकूलनात्मक हमलों पर विचार करने की महत्वपूर्ण आवश्यकता को जोर देता है।

Abstract

बड़े भाषा मॉडल (LLM) एजेंट विभिन्न अनुप्रयोगों में बाहरी उपकरणों का उपयोग करके वातावरण के साथ बातचीत करके आश्चर्यजनक प्रदर्शन दिखाते हैं। हालाँकि, बाहरी उपकरणों का एकीकरण सुरक्षा जोखिमों को लाता है, जैसे अप्रत्यक्ष संकेत इंजेक्शन (IPI) हमले। IPI हमलों के लिए डिज़ाइन की गई सुरक्षा के बावजूद, उनकी मजबूती अनुकूलनात्मक हमलों के खिलाफ अपर्याप्त परीक्षण के कारण संदेहास्पद बनी रहती है। इस पेपर में, हम आठ विभिन्न सुरक्षाओं का मूल्यांकन करते हैं और अनुकूलनात्मक हमलों का उपयोग करके सभी को बायपास करते हैं, लगातार 50% से अधिक हमले की सफलता दर हासिल करते हैं। यह वर्तमान सुरक्षा में महत्वपूर्ण कमजोरियों को उजागर करता है। हमारा अनुसंधान यह दर्शाता है कि सुरक्षा डिज़ाइन करते समय अनुकूलनात्मक हमले के मूल्यांकन की आवश्यकता है ताकि मजबूती और विश्वसनीयता सुनिश्चित की जा सके। कोड यहाँ उपलब्ध है: https://github.com/uiuc-kang-lab/AdaptiveAttackAgent.

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper