June 14, 2018Open Access

أقصى تحسين للسياسات بوساطة الاحتمالية

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم خوارزمية جديدة للتعلم التعزيزي تُدعى أقصى تحسين للسياسات بوساطة الاحتمالية (MPO) مبنية على صعود الإحداثيات على هدف انتروبي نسبي. نوضح أن العديد من الطرق الموجودة يمكن ربطها مباشرة باشتقاقنا. طورنا خوارزميتين خارج السياسات وأظهرنا أنهما تنافسيان مع أحدث التقنيات في التعلم العميق التعزيزي. وبشكل خاص، بالنسبة للتحكم المستمر، تتفوق طريقتنا على الطرق الحالية من حيث كفاءة العينة، والتقارب المبكر، والقدرة على التحمل تجاه إعدادات الهيبر بارامترات بينما تحقق أداءً نهائيًا مماثلاً أو أفضل.

Bookmark

View Full Paper

Bookmark

View Full Paper

أقصى تحسين للسياسات بوساطة الاحتمالية

Key Points

Abstract

Cite This Study