February 19, 2015Open Access

تحسين سياسة منطقة الثقة

Key Points

Key points are not available for this paper at this time.

Abstract

نصف إجراءً تكرارياً لتحسين السياسات مع تحسين أحادي مضمون. من خلال إجراء عدة تقريبات للإجراء المعزز نظرياً، نطور خوارزمية عملية تُدعى تحسين سياسة منطقة الثقة (TRPO). هذه الخوارزمية مشابهة لطرق تدرج السياسة الطبيعية وفعالة في تحسين السياسات غير الخطية الكبيرة مثل الشبكات العصبية. تظهر تجاربنا أدائها القوي في مجموعة متنوعة من المهام: تعلم السباحة الروبوتية المحاكية، والقفز، ومشية المشي؛ ولعب ألعاب أتا ري باستخدام صور الشاشة كدخل. على الرغم من تقريباتها التي تنحرف عن النظرية، يميل TRPO إلى تقديم تحسين أحادي، مع القليل من الضبط للمعلمات الفائقة.

Bookmark

View Full Paper