September 5, 2023Open Access

無限ホライズン平均報酬マルコフ決定過程に対するポリシー勾配アルゴリズムの後悔分析

Key Points

Key points are not available for this paper at this time.

Abstract

本論文では、無限ホライズン平均報酬マルコフ決定過程（MDP）について考察します。この文脈の既存の研究と異なり、私たちのアプローチは一般的なポリシー勾配に基づくアルゴリズムの力を活用し、線形MDP構造を仮定する制約から解放されます。ポリシー勾配に基づくアルゴリズムを提案し、その全体的な収束特性を示します。さらに、提案されたアルゴリズムの後悔がO (T^3/4)であることを証明します。特筆すべきは、本論文が平均報酬シナリオにおける一般的なパラメータ化ポリシー勾配アルゴリズムの後悔境界計算に関する初の探求を示す先駆的な努力であることです。

Bookmark

View Full Paper

Cite This Study

Bai et al.（火曜日）がこの問題を研究しました。

synapsesocial.com/papers/6a11de2f71528255b221b1b2 https://doi.org/https://doi.org/10.48550/arxiv.2309.01922

Bookmark

View Full Paper