Key points are not available for this paper at this time.
كفاءة استخدام العينات هي عامل مهم يؤثر على سرعة التقارب لخوارزميات التعلم العميق المعزز متعدد الوكلاء (MADRL). معظم طرق إعادة تشغيل التجارب الحالية تختار يدوياً عينات التجربة لتحديث سياسة الوكيل. من الصعب تقديم عينات تجربة مناسبة وفعالة لمراحل مختلفة من تعلم سياسة الوكيل، فضلاً عن استخراج القيمة المحتملة لعينات التجربة في ذاكرة التخزين المؤقت للإعادة. استلهمت هذه الورقة من فكرة أنظمة التوصية، وتقترح إطار عمل MADRL قائم على توصية التعزيز وتعديل المجموعة لتحسين كفاءة استخدام العينات والقدرة على إيجاد الحل الأمثل لنظام الوكلاء المتعددين في فئات سيناريوهات المهام المختلفة. أولاً، نستخدم احتمال السحب لكل عينة تجربة يتم إخراجها من شبكة التوصية لتوصية السحب بدلاً من السحب اليدوي؛ وفي الوقت نفسه، نجمع أداء نظام الوكلاء المتعددين بعد تحديث السياسة باستخدام عينة التجربة من سحب التوصية ونبني عملية التعلم المعزز لشبكة التوصية. بعد ذلك، نقوم بتعديل السياسة الفردية للوكيل وفقاً للمكافآت الجماعية لتحسين قدرة الوكيل على تعلم الحل الأمثل. ثم نجمع وندمج وحدات توصية التعزيز وتعديل المجموعة في خوارزمية MADRL MAAC. أخيرًا، نجري تجارب على سيناريوهات المهام، بما في ذلك الجمع التعاوني، تحريك الأوامر، والتنقل نحو الهدف، ونمدد هذا الإطار إلى خوارزمية MADDPG للتحقق من قابليته للتوسع. تظهر النتائج التجريبية أن خوارزميات MADRL غير السياسية الجمع بين الإطار المقترح تتفوق على خوارزمية الأساس من حيث كفاءة استخدام العينات ولها عالمية أفضل لعدد الوكلاء وفئات المشهد.
دراست و وآخرون (ثلاثاء) هذا السؤال.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: