Key points are not available for this paper at this time.
強化学習理論に基づき、本論文はUAVの自律空中戦機動決定の学習モデルを構築する。従来の強化学習やDQNアルゴリズムが連続アクション空間に対処できない問題に対処するため、ポリシーグラディエントに基づくDDPGアルゴリズムを採用し、モデルが連続的かつ滑らかな制御値を出力できるようにすることで、UAVの自律制御の精度を向上させる。DDPGアルゴリズムは、アクション値にノイズを加えることでアクション空間を探索する。ランダムに生成された初期アクション値の組み合わせは、多くの無効または低品質な個体を含み、効率的な学習と局所化を妨げる。この問題に対処するため、本論文では最適化アルゴリズムを用いて空中戦機動アクション値を生成し、最適化アクションを初期サンプルとしてDDPGリプレイバッファに追加することを提案する。この方法は多くの無効なアクション値を排除し、アクション値の正しさを保証する。同時に、多様性を探索する可能性を保持し、DDPGアルゴリズムの学習効率を向上させる。
Yangら(Mon,)はこの問題を研究した。