Key points are not available for this paper at this time.
نقدم خوارزمية جديدة للتعلم التعزيزي تُدعى أقصى تحسين للسياسات بوساطة الاحتمالية (MPO) مبنية على صعود الإحداثيات على هدف انتروبي نسبي. نوضح أن العديد من الطرق الموجودة يمكن ربطها مباشرة باشتقاقنا. طورنا خوارزميتين خارج السياسات وأظهرنا أنهما تنافسيان مع أحدث التقنيات في التعلم العميق التعزيزي. وبشكل خاص، بالنسبة للتحكم المستمر، تتفوق طريقتنا على الطرق الحالية من حيث كفاءة العينة، والتقارب المبكر، والقدرة على التحمل تجاه إعدادات الهيبر بارامترات بينما تحقق أداءً نهائيًا مماثلاً أو أفضل.
درس عبدالملاكي وآخرون (الخميس) هذا السؤال.