Key points are not available for this paper at this time.
大規模言語モデル(LLM)は、対話型意思決定タスクにおける知的エージェントとして有望であることが示されています。従来のアプローチは、綿密に設計されたプロンプト、高品質な例、または文脈内学習、教師付き微調整、RLHFのための追加の報酬モデルに依存することが多いです。強化学習(RL)は、LLMがタスク固有の環境と直接関わることでこれらの依存を克服する動的な代替手段を提供します。しかしながら、RLは以下の重大な障害に直面しています。1) 探索が必要な指数関数的に広大な行動空間に起因する不安定性、2) 行動レベルの報酬信号に基づくトークンレベルのクレジット割当の難しさにより、報酬最大化とコーパスデータの正確なモデリングとの間に不協和音が生じること。これらの課題に対応するために、我々は大規模言語モデルのトークンレベル最適化に特化したエントロピー加算型RL手法であるEntropy-Regularized Token-level Policy Optimization(ETPO)を提案します。ETPOの中核は、新しいトークン毎のソフトベルマン更新であり、RLプロセスと言語モデルの原則を調和させることを目的としています。この手法は、Q関数の更新を粗い行動レベルの視点からより詳細なトークンレベルの視点に分解し、最適化の一貫性に関する理論的証明を備えています。特に、この分解により行動探索の計算時間を線形に抑えています。我々はデータサイエンスコード生成を複数ステップの対話型タスクとしてモデル化したシミュレート環境でETPOの有効性を評価し、その結果、ETPOはCodeLlama-7Bモデルに対して効果的な性能向上を達成し、RLHFから継承されたPPOバリアントを上回ることを示しました。これは、ETPOがLLMの対話的意思決定能力を洗練する堅牢な方法としての可能性を示しています。
Wenら(Fri,)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: