Key points are not available for this paper at this time.
本論文では、ダイナミクスシステムの正確な知識を必要とせずに、マルチプレイヤー非ゼロ和ゲームを解決するためのポリシー反復に基づいたオンライン同期近似最適学習アルゴリズムを開発します。まず、非ゼロ和ゲームのためのオンラインポリシー反復アルゴリズムがバナッハ空間における準ニュートン反復と数学的に同等であることを証明します。次に、入力出力データを使用して未知の連続時間非線形システムを識別するためにモデルニューラルネットワークを構築します。各プレイヤーには、価値関数と制御ポリシーをそれぞれ近似するために批評家ニューラルネットワークとアクションニューラルネットワークが使用されます。私たちのアルゴリズムは、批評家ニューラルネットワークの重みをチューニングするだけで済むため、学習プロセス中の計算複雑性が低くなります。すべてのニューラルネットワークの重みはオンラインでリアルタイムに、継続的かつ同期的に更新されます。さらに、閉ループシステムの一様最終有界安定性がリャプノフアプローチに基づいて証明されます。最後に、開発したスキームの有効性を示すために二つのシミュレーション例を示します。
Liu et al. (Fri,) はこの問題を研究しました。