Key points are not available for this paper at this time.
نقدم نهج التعلم المعزز متعدد الوكلاء لحل لعبة المطاردة والهرب بين لاعبين اثنين مع ديناميات شبيهة بالسيارات وحدود حسية. نقوم بتطوير منهج لخوارزمية تدرج السياسة الحتمية متعددة الوكلاء الموجودة للحصول على استراتيجيات لكل من اللاعبين في وقت واحد، وننشر الاستراتيجيات المتعلمة على روبوتات حقيقية تتحرك بسرعة تصل إلى 2 م/ث في البيئات المغلقة. من خلال التجارب، نوضح أن الاستراتيجيات المتعلمة تحسن من المعايير الموجودة بنسبة تصل إلى 30% من حيث معدل الالتقاط للمطارد. النموذج المتعلم للهارب لديه معدل هروب أفضل بنسبة تصل إلى 5% مقارنة بالمعايير حتى ضد نموذج المطارد التنافسي الخاص بنا. كما نقدم نتائج التجارب التي توضح كيف تتطور لعبة المطاردة والهرب ونتائجها مع تغيير ديناميات اللاعبين وحدود الحساسية. أخيراً، ننشر السياسات المتعلمة على الروبوتات الفيزيائية في لعبة بين منصتي F1TENTH وJetRacer ونظهر أن الاستراتيجيات المتعلمة يمكن تنفيذها على الروبوتات الحقيقية. الشيفرة الخاصة بنا والمواد التكميلية بما في ذلك مقاطع الفيديو من التجارب متاحة على https://gonultasbu.github.io/pursuit-evasion/.
درس غونولطاس وآخرون (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: