Key points are not available for this paper at this time.
最近、大規模言語モデル(LLMs)を活用して意思決定プロセスを強化することに対する注目が集まっています。しかし、LLMsによって生成される自然言語テキスト指示を実行に必要なベクトル化された操作と整合させることは、大きな課題であり、しばしばタスク特有の詳細が必要になります。そのようなタスク特有の粒度を回避するために、好みベースのポリシー学習アプローチに触発されて、画像入力のみから自動化された好みフィードバックを提供するためにマルチモーダルLLMsの利用を調査します。本研究では、ロボットマニピュレーションタスクにおける軌道ビデオを理解する能力を持ち、分析と好みフィードバックを提供する批評者として機能するマルチモーダルLLM、CriticGPTを訓練します。続いて、報酬モデリングの観点からCriticGPTによって生成された好みラベルの効果を検証します。アルゴリズムの好み精度の実験的評価は、新しいタスクへの効果的な汎化能力を示しています。さらに、Meta-Worldタスクにおけるパフォーマンスは、CriticGPTの報酬モデルがポリシー学習を効率的に誘導し、最先端の事前学習済み表現モデルに基づく報酬を上回ることを明らかにします。
Liu et al. (Wed,) はこの問題を研究しました。