Key points are not available for this paper at this time.
تقدم هذه المقالة إطارًا لتعلم التعزيز لأنظمة الديناميكا في الزمن المستمر دون الحاجة إلى تقسيم الزمن، والحالة، والإجراء مسبقًا. استنادًا إلى معادلة هاميلتون-جاكوب-بيلمان (HJB) لمشاكل المكافآت المخفضة على مدى زمن غير محدود، نستخلص خوارزميات لتقدير دوال القيمة وتحسين السياسات باستخدام مقربات الدوال. يتم صياغة عملية تقدير دالة القيمة كحد أدنى من شكل مستمر للفرق الزمني (TD) الخطأ. يتم استخلاص طرق التحديث استنادًا إلى تقريب أويلر العكسي وآثار الأهلية الأسية، ويتم إظهار تطابقات هذه الطرق مع التدرج المتبقي التقليدي، TD(0)، وTD(lambda) الخوارزميات. لتحسين السياسة، يتم صياغة طريقتين - طريقة الممثل-الناقد المستمرة وسياسة جشعة مبنية على تدرج القيمة. كحالة خاصة من الأخيرة، يتم استنتاج قانون تحكم ردود الفعل غير الخطي باستخدام تدرج القيمة ونموذج كسب الإدخال. يتم أيضًا صياغة تحديث الميزة، وهو خوارزمية بدون نموذج تم استخلاصها مسبقًا، في إطار HJB. يتم اختبار أداء الخوارزميات المقترحة أولاً في مهمة تحكم غير خطية تتعلق بزيادة بندول مع عزم محدود. يظهر في المحاكاة أن (1) يتم إنجاز المهمة بواسطة طريقة الممثل-الناقد المستمرة في عدد من التجارب أقل بكثير من الطريقة التقليدية الممثل-الناقد المنفصلة؛ (2) من بين طرق تحديث السياسة المستمرة، تدرج القيمة القائمة على السياسة مع نموذج ديناميكي معروف أو متعلم تتفوق عدة مرات على طريقة الممثل-الناقد؛ و (3) تحديث دالة القيمة باستخدام آثار الأهلية الأسية أكثر كفاءة واستقرارًا من ذلك المستند إلى تقريب أويلر. ثم تم اختبار الخوارزميات في مهمة ذات أبعاد أعلى: زيادة سوينغ النقالة. تم إنجاز هذه المهمة في عدة مئات من التجارب باستخدام السياسة القائمة على تدرج القيمة مع نموذج ديناميكي متعلم.
درس كينجي دويا (سات) هذا السؤال.