Key points are not available for this paper at this time.
さまざまな連続制御タスクにおけるディープ強化学習(DRL)ポリシーネットワークの広範な利用は、入力状態ノルムがトレーニング環境でのそれよりも大きい場合の広範な状態空間における性能低下に関する疑問を引き起こしています。本論文は、状態分割と呼ばれる新しい分析技術を使用して、拡張された状態空間を扱う際の性能低下に寄与する根本的な要因を明らかにすることを目的としています。従来のアプローチが状態分割を単なる事後的な説明ツールとして用いるのに対し、我々の方法論はDRLポリシーネットワークの内在的な特性に深く掘り下げています。具体的には、状態空間の拡張が活性化関数に飽和性を示すことを引き起こし、状態分割境界を非線形から線形に変化させることを示します。我々の分析はダブルインテグレータシステムのパラダイムに焦点を当てており、この漸進的な線形性への移行がバンバン制御に似た制御動作をもたらすことを明らかにしています。しかし、分割境界の固有の線形性は理想的なバンバン制御の達成を妨げ、避けられないオーバーシュートを引き起こします。さまざまなRLアルゴリズムを用いた実験的調査により、この性能現象がDRLポリシーネットワークの固有の特性に起因し、さまざまな最適化アルゴリズムにわたって一貫していることが確認されています。
Zhang et al. (Sun) はこの問題を研究しました。