Key points are not available for this paper at this time.
言語誘導探索(LGX)を提案します。これは、具現化されたエージェントが前例のない環境の中で独自に記述されたターゲットオブジェクトにナビゲートするための新しいアルゴリズムで、言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)です。このタスクには、大規模言語モデル(LLM)を活用し、連続的なナビゲーション決定を下すための常識推論能力を利用しています。同時に、事前にトレーニングされたビジョン・ランゲージグラウンディングモデルを使用して一般化されたターゲットオブジェクト検出を行います。RoboTHORにおいて、現在のOWL-ViT CLIP on Wheels(OWL CoW)のベースラインに対して27%以上の成功率向上で、最先端のゼロショットオブジェクトナビゲーション結果を達成しました。さらに、ロボットナビゲーションにおけるLLMの使用を研究し、モデルの出力に影響を与えるさまざまなプロンプティング戦略の分析を提示します。最後に、視覚的にユニークなオブジェクトを検出し、ナビゲーションする上でのLGXの優れたパフォーマンスを示す実世界の実験を通じて、我々のアプローチの利点を紹介します。
Dorbalaら(Mon、)はこの質問を研究しました。
Synapse has enriched one closely related paper. Consider it for comparative context: