September 3, 2024

خوارزميات تحسين السياسات العامة المدعومة نظريًا بإعادة استخدام العينات

Key Points

Key points are not available for this paper at this time.

Abstract

نحن نطور فئة جديدة من خوارزميات التعلم العميق المعزز التي لا تعتمد على نموذج للتحكم القائم على البيانات والتعلم. تجمع خوارزميات تحسين السياسات العامة لدينا بين ضمانات تحسين السياسات لأساليب السياسة الحالية وكفاءة إعادة استخدام العينات، مما يعالج توازنًا بين متطلبين مهمين للنشر في التحكم بالعالم الحقيقي: (i) ضمانات الأداء العملي و (ii) كفاءة البيانات. نحن نوضح فوائد هذه الفئة الجديدة من الخوارزميات من خلال تحليل تجريبي شامل لمجموعة واسعة من مهام التحكم المحاكاة.

خوارزميات تحسين السياسات العامة المدعومة نظريًا بإعادة استخدام العينات

Key Points

Abstract

Cite This Study