What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

MSSA: リモートセンシング画像–テキスト検索のためのマルチスケール意味認識手法

Key Points

MSSAは、リモートセンシング画像の意味的一貫性を確保することで、クロスモーダル検索精度を向上させます。
この手法は、より良い整合性を実現するためにプログレッシブ空間チャネルジョイントアテンションを使用してマルチスケール画像特徴を強化します。
画像誘導テキストアテンションは、視覚的コンテキストに基づいてテキスト注意重みを動的に調整します。
実験により、MSSAが3つのベースラインデータセット全体で優れた検索性能を達成したことが示されています。

Abstract

近年、リモートセンシング画像–テキスト検索（RSITR）が提供する情報抽出の便利さと可能性は、リモートセンシング（RS）知識サービスにおける重要な研究の焦点となっています。現在の主流のRSITR手法は、一般的に異なるスケールで融合された画像特徴とテキスト特徴を整合させ、RS画像のローカル情報に主に焦点を当てているため、潜在的な意味情報を無視しています。その結果、クロスモーダル意味空間における整合性が不十分になります。この限界を克服するために、マルチスケール意味認識リモートセンシング画像–テキスト検索手法（MSSA）を提案します。この手法は、プログレッシブ空間チャネルジョイントアテンション（PSCJA）を導入し、ウィンドウ・リージョン・グローバルプログレッシブアテンション（WRGPA）およびセグメンテッドチャネルアテンション（SCA）を通じてマルチスケール画像特徴の表現能力を向上させます。さらに、画像誘導テキストアテンション（IGTA）メカニズムは、視覚的コンテキストに基づいてテキストの注意重みを動的に調整します。さらに、クロスモーダル意味抽出モジュール（CMSE）は、各スケールで学習可能な意味トークンを統合し、異なるモダリティのマルチスケール特徴間の注意の相互作用と階層的意味の関連を捉えることを可能にします。このマルチスケール意味ガイドの検索手法は、クロスモーダル意味の一貫性を保証し、RSにおけるクロスモーダル検索の精度を大幅に向上させます。MSSAは、3つのベースラインデータセットにわたる実験で優れた検索精度を示し、新たな最先端の性能を達成します。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper