Key points are not available for this paper at this time.
نصف إجراءً تكرارياً لتحسين السياسات مع تحسين أحادي مضمون. من خلال إجراء عدة تقريبات للإجراء المعزز نظرياً، نطور خوارزمية عملية تُدعى تحسين سياسة منطقة الثقة (TRPO). هذه الخوارزمية مشابهة لطرق تدرج السياسة الطبيعية وفعالة في تحسين السياسات غير الخطية الكبيرة مثل الشبكات العصبية. تظهر تجاربنا أدائها القوي في مجموعة متنوعة من المهام: تعلم السباحة الروبوتية المحاكية، والقفز، ومشية المشي؛ ولعب ألعاب أتا ري باستخدام صور الشاشة كدخل. على الرغم من تقريباتها التي تنحرف عن النظرية، يميل TRPO إلى تقديم تحسين أحادي، مع القليل من الضبط للمعلمات الفائقة.
قام شلمان وآخرون (Thu,) بدراسة هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: