大規模言語モデル(LLMs)は、常識的推論やコード生成における堅牢な能力のおかげで、自動強化学習(RL)報酬設計の有望なツールとして浮上しています。RLエージェントとの対話を通じて、LLMsは関連する環境状態を選択し、それらの内部操作を定義することによって、報酬観測空間(ROS)を構築します。しかし、既存のフレームワークは、歴史的探査データや手動タスク記述を効果的に活用してこの空間を反復的に進化させてはいません。本論文では、テーブルベースの探査キャッシングメカニズムとテキストコード調整戦略を通じてROSを進化させることにより、LLM主導の報酬設計を強化する新しいヒューリスティックフレームワークを提案します。私たちのフレームワークは、環境状態の歴史的利用状況と成功率を追跡する状態実行テーブルを導入し、LLM対話で一般的に見られるマルコフ制約を克服し、より効果的な探査を促進します。さらに、構造化されたプロンプトを使用して、ユーザー提供のタスク記述を専門家定義の成功基準と調整し、報酬設計の目的の整合性を確保します。ベンチマークRLタスクに関する包括的な評価は、提案されたフレームワークの効果と安定性を実証しています。コードと動画デモは、jingjjjjjie.github.io/LLM2Rewardにて入手できます。
Heng et al.(木曜日)はこの問題を研究しました。