Key points are not available for this paper at this time.
大規模ロボティックシステムは通常、タスクのためにテキスト指示に依存しますが、本研究では異なるアプローチを模索します:ロボットは人間の観察から直接タスクを推測できるでしょうか?このシフトは、ロボットが人間の意図を解読し、それを物理的制約や環境内で実行可能なアクションに変換する能力を必要とします。私たちはVid2Robotを紹介します。これはロボットのための新しいエンドツーエンドのビデオベースの学習フレームワークです。操作タスクのビデオデモンストレーションと現在の視覚観察を与えると、Vid2Robotはロボットのアクションを直接生成します。これは、大規模な人間のビデオおよびロボットの軌跡からトレーニングされた統一表現モデルを通じて実現されます。このモデルは、クロスアテンションメカニズムを活用して、プロンプトビデオ機能をロボットの現在の状態に融合させ、観察されたタスクを模倣する適切なアクションを生成します。ポリシー性能をさらに向上させるために、人間とロボットのビデオ表現の整合性を強化する補助的コントラスト損失を提案します。私たちは、実世界のロボットでVid2Robotを評価し、人間のデモンストレーションビデオを使用した場合、他のビデオ条件付きポリシーと比較して20%の性能向上を実証します。さらに、私たちのモデルは、1つのオブジェクトから別のオブジェクトへの観察された動作の成功した転送や、長期的な構成などの新たな能力を示し、実世界のアプリケーションへの潜在能力を示しています。プロジェクトウェブサイト:vid2robot.github.io
Jain et al. (火曜日) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: