June 6, 2017Open Access

ضوضاء فضاء المعلمات للاستكشاف

Key Points

Key points are not available for this paper at this time.

Abstract

طرق التعلم العميق المعزز (RL) عادةً ما تشارك في سلوك استكشافي من خلال حقن الضوضاء في فضاء الأفعال. بديل لذلك هو إضافة ضوضاء مباشرة إلى معلمات الوكيل، مما يمكن أن يؤدي إلى استكشاف أكثر اتساقاً ومجموعة أغنى من السلوكيات. تستخدم طرق مثل الاستراتيجيات التطورية ت perturbations المعاملات، ولكن تتخلص من كل هيكل زمني في العملية وتتطلب عينات أكثر بكثير. يجمع دمج ضوضاء المعلمات مع طرق RL التقليدية بين أفضل ما في العالمين. نحن نوضح أن الأساليب سواء التي تعمل على السياسات أو خارجها تستفيد من هذا النهج من خلال المقارنة التجريبية لـ DQN و DDPG و TRPO في بيئات أفعال متقطعة ذات أبعاد عالية وكذلك مهام التحكم المستمر. تظهر نتائجنا أن RL مع ضوضاء المعلمات يتعلم بكفاءة أكبر من RL التقليدي مع ضوضاء فضاء الأفعال والاستراتيجيات التطورية بشكل فردي.

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper