June 3, 2024Open Access

GeoReasoner: ストリートビューにおける推論を用いた地理的ローカリゼーションと大規模なビジョン-ランゲージモデル

Key Points

GeoReasonerは、従来のアプローチと比較して国レベルの地理的ローカリゼーションの効果を25％以上向上させました。
検証の指標は、GeoReasonerが人間の推論知識を活用することで性能基準を上回ることができることを示しました。
CLIPベースのネットワークがデータセット作成プロセスにおいてストリートビュー画像の品質とローカリゼーション能力を評価し、向上させるために使用され、低品質な画像とデータ不足によって通常妨げられるトレーニングの効果を改善しました。このシステムは、トレーニングと評価段階におけるリソース使用を最適化しつつ、パフォーマンスの向上を促進し、データセットの量よりも質の重要性を強調しています。

Abstract

本研究は、大規模ビジョン-ランゲージモデル（LVLM）に人間の推論知識を加えた新しいパラダイムを用いて地理的ローカリゼーションの問題に取り組んでいます。ここでの主な課題は、LVLMのトレーニングに必要なデータが不足していることです。既存のストリートビューのデータセットは、視覚的手がかりが欠如した低品質な画像を多く含んでおり、推論を伴わないものが多いです。データの品質問題に対処するため、ストリートビュー画像のローカリゼーション度を定量化するためにCLIPベースのネットワークを考案し、高度にローカライズ可能なストリートビューを含む新しいデータセットを作成しました。推論を強化するために、実際の地理的ローカリゼーションゲームから得た外部知識を統合し、貴重な人間の推論能力を活用しています。データはGeoReasonerのトレーニングに利用され、専用の推論及びロケーションチューニング段階を通じて微調整されます。定性的及び定量的評価は、GeoReasonerが国レベルの地理的ローカリゼーションタスクで25％、都市レベルで38％以上の向上を示し、少ないトレーニングリソースでStreetCLIPの性能を上回ることを示しています。データとコードはhttps://github.com/lingli1996/GeoReasonerで入手可能です。

GeoReasoner: ストリートビューにおける推論を用いた地理的ローカリゼーションと大規模なビジョン-ランゲージモデル

Key Points

Abstract

Cite This Study

Also Consider

Also Consider