December 25, 2023

具現化されたエージェントはあなたの「猫型マグカップ」を見つけられるか？LLMに基づくゼロショットオブジェクトナビゲーション

Key Points

Key points are not available for this paper at this time.

Abstract

言語誘導探索（LGX）を提案します。これは、具現化されたエージェントが前例のない環境の中で独自に記述されたターゲットオブジェクトにナビゲートするための新しいアルゴリズムで、言語駆動型ゼロショットオブジェクトゴールナビゲーション（L-ZSON）です。このタスクには、大規模言語モデル（LLM）を活用し、連続的なナビゲーション決定を下すための常識推論能力を利用しています。同時に、事前にトレーニングされたビジョン・ランゲージグラウンディングモデルを使用して一般化されたターゲットオブジェクト検出を行います。RoboTHORにおいて、現在のOWL-ViT CLIP on Wheels（OWL CoW）のベースラインに対して27％以上の成功率向上で、最先端のゼロショットオブジェクトナビゲーション結果を達成しました。さらに、ロボットナビゲーションにおけるLLMの使用を研究し、モデルの出力に影響を与えるさまざまなプロンプティング戦略の分析を提示します。最後に、視覚的にユニークなオブジェクトを検出し、ナビゲーションする上でのLGXの優れたパフォーマンスを示す実世界の実験を通じて、我々のアプローチの利点を紹介します。

具現化されたエージェントはあなたの「猫型マグカップ」を見つけられるか？LLMに基づくゼロショットオブジェクトナビゲーション

Key Points

Abstract

Cite This Study

Also Consider

Also Consider