July 15, 2023Open Access

الهجمات العدائية الفعالة على التعلم التعزيزي متعدد الوكلاء على الإنترنت

Key Points

Key points are not available for this paper at this time.

Abstract

نظرًا للتطبيقات الواسعة للتعلم التعزيزي متعدد الوكلاء (MARL)، فإن فهم تأثيرات الهجمات العدائية ضد نموذج MARL أمر ضروري للتطبيقات الآمنة لهذا النموذج. بدافع من ذلك، نحقق في تأثير الهجمات العدائية على MARL. في الإعداد المعتمد، هناك مهاجم خارجي قادر على تعديل المكافآت قبل أن يتلقاها الوكلاء أو التلاعب بالأفعال قبل أن تتلقاها البيئة. يهدف المهاجم إلى توجيه كل وكيل نحو سياسة مستهدفة أو تعظيم المكافآت التراكمية بموجب بعض دوال المكافآت المحددة التي يختارها المهاجم، مع تقليل كمية التلاعب على التغذية الراجعة والفعل. نظهر أولاً قيود الهجمات القائمة على تسميم الأفعال فقط وتسميم المكافآت فقط. ثم نقدم استراتيجية هجوم مختلط تشمل كل من تسميم الأفعال وتسميم المكافآت. نوضح أن استراتيجية الهجوم المختلط يمكن أن تهاجم وكلاء MARL بفعالية حتى لو لم يكن لدى المهاجم أي معلومات سابقة عن البيئة الأساسية وخوارزميات الوكلاء.

Bookmark

View Full Paper

Bookmark

View Full Paper

الهجمات العدائية الفعالة على التعلم التعزيزي متعدد الوكلاء على الإنترنت

Key Points

Abstract

Cite This Study