February 17, 2024Open Access

人間のフィードバックからの学習を加速する言語モデル予測制御の学習

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLMs）は、言語コマンドからロボットコードを書くなどの幅広い能力を示すことが知られています。これにより、専門家でない人々がロボットの動作を指示し、フィードバックに基づいてそれを修正し、新しいタスクを実行するために構成することができます。しかし、これらの能力（文脈内学習によって駆動される）は、ユーザーのフィードバックがLLMの文脈サイズに合う限り関連性がある短期的な相互作用に制限され、長期間の相互作用では忘れられる可能性があります。本研究では、ロボットコード作成LLMsをファインチューニングし、その文脈内相互作用を記憶させ、学習可能性、すなわち人間の入力にどれだけ効率的に適応するか（ユーザーがタスクを成功と見なす前の修正の平均数によって測定）を向上させることを模索します。我々の重要な観察は、人間-ロボット相互作用が部分的に観察可能なマルコフ決定過程として定式化されるとき（人間の言語入力が観察であり、ロボットのコード出力が行動である）、以前の相互作用を完了するようにLLMを訓練することが遷移動力学モデルの訓練と見なされることです。これは、古典的なロボティクス技術、例えばモデル予測制御（MPC）と組み合わせて成功への短い経路を見つけることができます。これにより、Language Model Predictive Control（LMPC）というフレームワークが生まれ、PaLM 2をファインチューニングして5つのロボット実体で78のタスクの学習可能性を向上させます。これにより、専門家でない人々の未見のタスクの指導成功率が26.9%向上し、平均的な人間の修正数が2.4から1.9に減少しました。実験は、LMPCが強力なメタ学習者を生成し、未見のロボット実体およびAPIでの新しいタスクの文脈内学習の成功率を31.5%向上させることを示しています。詳細は動画、コード、デモをご覧ください: https://robot-teaching.github.io/.

人間のフィードバックからの学習を加速する言語モデル予測制御の学習

Key Points

Abstract

Cite This Study