Key points are not available for this paper at this time.
نحن نطور فئة جديدة من خوارزميات التعلم العميق المعزز التي لا تعتمد على نموذج للتحكم القائم على البيانات والتعلم. تجمع خوارزميات تحسين السياسات العامة لدينا بين ضمانات تحسين السياسات لأساليب السياسة الحالية وكفاءة إعادة استخدام العينات، مما يعالج توازنًا بين متطلبين مهمين للنشر في التحكم بالعالم الحقيقي: (i) ضمانات الأداء العملي و (ii) كفاءة البيانات. نحن نوضح فوائد هذه الفئة الجديدة من الخوارزميات من خلال تحليل تجريبي شامل لمجموعة واسعة من مهام التحكم المحاكاة.
درس كوينى وآخرون (الثلاثاء) هذا السؤال.