Key points are not available for this paper at this time.
طرق التعلم العميق المعزز (RL) عادةً ما تشارك في سلوك استكشافي من خلال حقن الضوضاء في فضاء الأفعال. بديل لذلك هو إضافة ضوضاء مباشرة إلى معلمات الوكيل، مما يمكن أن يؤدي إلى استكشاف أكثر اتساقاً ومجموعة أغنى من السلوكيات. تستخدم طرق مثل الاستراتيجيات التطورية ت perturbations المعاملات، ولكن تتخلص من كل هيكل زمني في العملية وتتطلب عينات أكثر بكثير. يجمع دمج ضوضاء المعلمات مع طرق RL التقليدية بين أفضل ما في العالمين. نحن نوضح أن الأساليب سواء التي تعمل على السياسات أو خارجها تستفيد من هذا النهج من خلال المقارنة التجريبية لـ DQN و DDPG و TRPO في بيئات أفعال متقطعة ذات أبعاد عالية وكذلك مهام التحكم المستمر. تظهر نتائجنا أن RL مع ضوضاء المعلمات يتعلم بكفاءة أكبر من RL التقليدي مع ضوضاء فضاء الأفعال والاستراتيجيات التطورية بشكل فردي.
درس بلابيرت وزملاؤه (الثلاثاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: