Key points are not available for this paper at this time.
拡散などの生成モデルは、より効果的な学習のために合成データを生成するために、オフライン強化学習における世界モデルとして利用されてきました。既存の研究は、トレーニングの前に一度だけ拡散モデルを生成するか、更新のために追加のインタラクションデータを必要とします。本論文では、クローズドループポリシー評価と世界モデルの適応を伴うオフライン強化学習の新しいアプローチを提案します。このアプローチは、ガイディッド拡散世界モデルを逐次利用して、得られたアクションを使用してオフラインターゲットポリシーを直接評価し、その後、ポリシー更新に合わせて世界モデルを適応的に調整するために、重要サンプル化された世界モデルの更新を行います。我々は提案された手法の性能を分析し、最適ポリシーの下での我々の手法と実環境との間のリターンギャップの上限を示しました。この結果は、学習性能に影響を与えるさまざまな要因に光を当てています。D4RL環境での評価は、特にランダムまたは中程度の専門知識のデモンストレーションしか利用できない場合に、最先端のベースラインに対して大幅な改善を示しています。したがって、世界モデルとオフラインポリシー評価の間の改善された整合性が求められます。
Fangら(木曜日)はこの問題を研究しました。