Key points are not available for this paper at this time.
オープンボキャブラリーの一般化は、ロボットシステムが複雑で多様な環境やタスク目標を含むタスクを実行することを要求します。最近の視覚言語モデル(VLM)の進展は、未経験の問題を解決するための前例のない機会を提供しますが、物理的世界でロボットを制御するためにその新たに発現した能力をどのように利用するかは未解決の問題のままです。本論文では、自由形式の言語記述によって指定されたロボティックマニピュレーションタスクを解決するためにVLMを活用するアプローチ、MOKA(マーク付きオープンボキャブラリーキーポイントアフォーダンス)を提示します。私たちのアプローチの中心には、RGB画像に対するVLMの予測と物理世界でのロボットの動きを橋渡しするコンパクトなポイントベースのアフォーダンスおよび動きの表現があります。インターネット規模のデータで事前訓練されたVLMを用いてプロンプトすることで、私たちのアプローチはアフォーダンスを予測し、広範な情報源からの概念理解および常識知識を活用して対応する動きを生成します。ゼロショットのVLMの推論を助けるために、私たちは画像にマークを注釈付けする視覚的プロンプティング技術を提案し、キーポイントとウェイポイントの予測をVLMが解決可能な一連の視覚的質問応答問題に変換します。この方法で収集されたロボット経験を利用して、文脈内学習およびポリシーディスティレーションを通じて性能をブートストラップする方法をさらなる調査を行います。自由形式の言語記述によって指定されたさまざまなマニピュレーションタスク、例えばツール使用、変形体のマニピュレーション、およびオブジェクトの再配置におけるMOKAの性能を評価し分析します。
Liu et al. (Tue,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: