Key points are not available for this paper at this time.
本論文では、無限ホライズン平均報酬マルコフ決定過程(MDP)について考察します。この文脈の既存の研究と異なり、私たちのアプローチは一般的なポリシー勾配に基づくアルゴリズムの力を活用し、線形MDP構造を仮定する制約から解放されます。ポリシー勾配に基づくアルゴリズムを提案し、その全体的な収束特性を示します。さらに、提案されたアルゴリズムの後悔がO (T^3/4)であることを証明します。特筆すべきは、本論文が平均報酬シナリオにおける一般的なパラメータ化ポリシー勾配アルゴリズムの後悔境界計算に関する初の探求を示す先駆的な努力であることです。
Bai et al.(火曜日)がこの問題を研究しました。