Key points are not available for this paper at this time.
リモートセンシング画像キャプショニング(RSIC)の分野では、主流の手法は通常エンコーダ–デコーダフレームワークを採用します。このフレームワークに基づく手法は、しばしば単純な特徴融合戦略のみを使用するため、リモートセンシング画像の細やかな特徴を十分に掘り下げることができません。さらに、デコーダにおけるコンテキスト情報の導入が欠如しているため、生成される文の精度が低下します。これらの問題に対処するために、我々はリモートセンシング画像キャプショニングのための二段階特徴強化モデル(TSFE)を提案します。第一段階では、適応的な特徴融合戦略を採用してマルチスケール特徴を取得します。第二段階では、画像の異なる領域間の関連を確立することにより、マルチスケール特徴に基づいて細やかな特徴をさらに掘り下げます。加えて、デコーダにシーン情報を伴うグローバルな特徴を導入して、記述生成を助けます。RSICD、UCM-Captions、Sydney-Captionsデータセットにおける実験結果は、提案した手法が既存の最先端アプローチを上回ることを示しています。
Guo et al. (Wed,) はこの問題を研究しました。