近年、リモートセンシング画像–テキスト検索(RSITR)が提供する情報抽出の便利さと可能性は、リモートセンシング(RS)知識サービスにおける重要な研究の焦点となっています。現在の主流のRSITR手法は、一般的に異なるスケールで融合された画像特徴とテキスト特徴を整合させ、RS画像のローカル情報に主に焦点を当てているため、潜在的な意味情報を無視しています。その結果、クロスモーダル意味空間における整合性が不十分になります。この限界を克服するために、マルチスケール意味認識リモートセンシング画像–テキスト検索手法(MSSA)を提案します。この手法は、プログレッシブ空間チャネルジョイントアテンション(PSCJA)を導入し、ウィンドウ・リージョン・グローバルプログレッシブアテンション(WRGPA)およびセグメンテッドチャネルアテンション(SCA)を通じてマルチスケール画像特徴の表現能力を向上させます。さらに、画像誘導テキストアテンション(IGTA)メカニズムは、視覚的コンテキストに基づいてテキストの注意重みを動的に調整します。さらに、クロスモーダル意味抽出モジュール(CMSE)は、各スケールで学習可能な意味トークンを統合し、異なるモダリティのマルチスケール特徴間の注意の相互作用と階層的意味の関連を捉えることを可能にします。このマルチスケール意味ガイドの検索手法は、クロスモーダル意味の一貫性を保証し、RSにおけるクロスモーダル検索の精度を大幅に向上させます。MSSAは、3つのベースラインデータセットにわたる実験で優れた検索精度を示し、新たな最先端の性能を達成します。
Liao et al. (Tue,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: