Key points are not available for this paper at this time.
最近の言語モデルの調整に関する進展を基に、オフライン強化学習を2段階の最適化問題として定式化します。まず、報酬のない行動データセット上で表現力豊かな生成ポリシーを事前訓練し、次にこれらのポリシーをQ値のようなタスク特化の注釈に合わせて微調整します。この戦略により、豊富で多様な行動データを活用して一般化を強化し、最小限の注釈で下流タスクへの迅速な適応を実現します。特に、連続制御問題を解決するために効率的な拡散調整(EDA)を導入します。EDAは行動モデリングのために拡散モデルを利用します。しかし、従来のアプローチとは異なり、行動ポリシーをアクション入力に対するスカラー神経ネットワークの導函数として表現します。この表現は重要であり、拡散モデルの直接密度計算を可能にし、既存のLLM調整理論との互換性を持たせます。ポリシーの微調整中に、直接的な好み最適化(DPO)のような好みに基づく調整手法を拡張して、拡散行動と連続Q関数を合わせます。D4RLベンチマークでの評価では、EDAが全体的な性能においてすべてのベースライン手法を上回ることを示しました。特に、EDAは約95\%の性能を維持し、微調整中にわずか1\%のQラベルデータのみでいくつかのベースラインを上回ります。
Chen et al. (Fri,) はこの問題を研究しました。