本研究は、大規模ビジョン-ランゲージモデル(LVLM)に人間の推論知識を加えた新しいパラダイムを用いて地理的ローカリゼーションの問題に取り組んでいます。ここでの主な課題は、LVLMのトレーニングに必要なデータが不足していることです。既存のストリートビューのデータセットは、視覚的手がかりが欠如した低品質な画像を多く含んでおり、推論を伴わないものが多いです。データの品質問題に対処するため、ストリートビュー画像のローカリゼーション度を定量化するためにCLIPベースのネットワークを考案し、高度にローカライズ可能なストリートビューを含む新しいデータセットを作成しました。推論を強化するために、実際の地理的ローカリゼーションゲームから得た外部知識を統合し、貴重な人間の推論能力を活用しています。データはGeoReasonerのトレーニングに利用され、専用の推論及びロケーションチューニング段階を通じて微調整されます。定性的及び定量的評価は、GeoReasonerが国レベルの地理的ローカリゼーションタスクで25%、都市レベルで38%以上の向上を示し、少ないトレーニングリソースでStreetCLIPの性能を上回ることを示しています。データとコードはhttps://github.com/lingli1996/GeoReasonerで入手可能です。
Li et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: