Key points are not available for this paper at this time.
この記事では、離散時間システムのための新しい強化学習に基づくモデル予測制御(RLMPC)スキームを提案します。このスキームは、モデル予測制御(MPC)と強化学習(RL)をポリシー反復(PI)を通じて統合し、MPCがポリシー生成器であり、RL技術がポリシー評価に利用されます。得られた価値関数はMPCの終端コストとして使用され、生成されたポリシーを向上させます。これにより、従来のMPCにおける終端コスト、補助コントローラ、および終端制約のオフライン設計パラダイムの必要性が排除されるという利点があります。さらに、この記事で提案されたRLMPCは、終端制約が排除されるため、予測ホライズンの柔軟な選択を可能にし、計算負担を軽減する大きな潜在能力を持っています。RLMPCの収束性、実現可能性、安定性特性について厳密な分析を提供します。シミュレーション結果は、RLMPCが線形システムの制御において従来のMPCとほぼ同等の性能を達成し、非線形システムに対しては従来のMPCを上回る優位性を示すことを示しています。
Lin et al. (金曜日)、この問題を研究しました。