What type of study is this?

This is a Experimental Study study (also classified as: Quantitative Study).

October 5, 2025Open Access

ヒューリスティック報酬観測空間進化を通じた普遍的LLM報酬設計の向上

Key Points

提案されたフレームワークは、大規模言語モデルの観測空間を進化させることにより、報酬設計を強化します。
状態実行テーブルは、環境状態の歴史的利用状況と成功率を追跡し、探査を改善します。
このフレームワークは、ユーザーが提供したタスク記述と専門家が定義した成功基準を効果的に調整します。
ベンチマークRLタスクに関する包括的な評価は、提案されたアプローチの効果と安定性を検証します。

Abstract

大規模言語モデル（LLMs）は、常識的推論やコード生成における堅牢な能力のおかげで、自動強化学習（RL）報酬設計の有望なツールとして浮上しています。RLエージェントとの対話を通じて、LLMsは関連する環境状態を選択し、それらの内部操作を定義することによって、報酬観測空間（ROS）を構築します。しかし、既存のフレームワークは、歴史的探査データや手動タスク記述を効果的に活用してこの空間を反復的に進化させてはいません。本論文では、テーブルベースの探査キャッシングメカニズムとテキストコード調整戦略を通じてROSを進化させることにより、LLM主導の報酬設計を強化する新しいヒューリスティックフレームワークを提案します。私たちのフレームワークは、環境状態の歴史的利用状況と成功率を追跡する状態実行テーブルを導入し、LLM対話で一般的に見られるマルコフ制約を克服し、より効果的な探査を促進します。さらに、構造化されたプロンプトを使用して、ユーザー提供のタスク記述を専門家定義の成功基準と調整し、報酬設計の目的の整合性を確保します。ベンチマークRLタスクに関する包括的な評価は、提案されたフレームワークの効果と安定性を実証しています。コードと動画デモは、jingjjjjjie.github.io/LLM2Rewardにて入手できます。

ヒューリスティック報酬観測空間進化を通じた普遍的LLM報酬設計の向上

Key Points

Abstract

Cite This Study