May 8, 2024Open Access

تعلم لعب المطاردة والهرب مع قيود ديناميكية وحسية

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم نهج التعلم المعزز متعدد الوكلاء لحل لعبة المطاردة والهرب بين لاعبين اثنين مع ديناميات شبيهة بالسيارات وحدود حسية. نقوم بتطوير منهج لخوارزمية تدرج السياسة الحتمية متعددة الوكلاء الموجودة للحصول على استراتيجيات لكل من اللاعبين في وقت واحد، وننشر الاستراتيجيات المتعلمة على روبوتات حقيقية تتحرك بسرعة تصل إلى 2 م/ث في البيئات المغلقة. من خلال التجارب، نوضح أن الاستراتيجيات المتعلمة تحسن من المعايير الموجودة بنسبة تصل إلى 30% من حيث معدل الالتقاط للمطارد. النموذج المتعلم للهارب لديه معدل هروب أفضل بنسبة تصل إلى 5% مقارنة بالمعايير حتى ضد نموذج المطارد التنافسي الخاص بنا. كما نقدم نتائج التجارب التي توضح كيف تتطور لعبة المطاردة والهرب ونتائجها مع تغيير ديناميات اللاعبين وحدود الحساسية. أخيراً، ننشر السياسات المتعلمة على الروبوتات الفيزيائية في لعبة بين منصتي F1TENTH وJetRacer ونظهر أن الاستراتيجيات المتعلمة يمكن تنفيذها على الروبوتات الحقيقية. الشيفرة الخاصة بنا والمواد التكميلية بما في ذلك مقاطع الفيديو من التجارب متاحة على https://gonultasbu.github.io/pursuit-evasion/.

تعلم لعب المطاردة والهرب مع قيود ديناميكية وحسية

Key Points

Abstract

Cite This Study

Also Consider

Also Consider