Key points are not available for this paper at this time.
نظرًا للتطبيقات الواسعة للتعلم التعزيزي متعدد الوكلاء (MARL)، فإن فهم تأثيرات الهجمات العدائية ضد نموذج MARL أمر ضروري للتطبيقات الآمنة لهذا النموذج. بدافع من ذلك، نحقق في تأثير الهجمات العدائية على MARL. في الإعداد المعتمد، هناك مهاجم خارجي قادر على تعديل المكافآت قبل أن يتلقاها الوكلاء أو التلاعب بالأفعال قبل أن تتلقاها البيئة. يهدف المهاجم إلى توجيه كل وكيل نحو سياسة مستهدفة أو تعظيم المكافآت التراكمية بموجب بعض دوال المكافآت المحددة التي يختارها المهاجم، مع تقليل كمية التلاعب على التغذية الراجعة والفعل. نظهر أولاً قيود الهجمات القائمة على تسميم الأفعال فقط وتسميم المكافآت فقط. ثم نقدم استراتيجية هجوم مختلط تشمل كل من تسميم الأفعال وتسميم المكافآت. نوضح أن استراتيجية الهجوم المختلط يمكن أن تهاجم وكلاء MARL بفعالية حتى لو لم يكن لدى المهاجم أي معلومات سابقة عن البيئة الأساسية وخوارزميات الوكلاء.
درس ليو وآخرون (السبت) هذا السؤال.