Key points are not available for this paper at this time.
画像キャプション生成とは、画像内容に基づいて自然言語の説明を生成するプロセスであり、シーン理解や人間とコンピュータの相互作用に対する影響からAI研究の注目を集めています。これまでの多くの研究は英語のキャプション生成に焦点を当ててきましたが、ベンガル語のようなリソースが限られた言語に取り組むことは、視覚的オブジェクトと対応する単語を結びつける一貫したキャプションを生成する点で課題があります。本論文では、ベンガル語における画像キャプション生成のためにオブジェクトを正確に診断するために、意味的注意に基づく文脈に配慮した注意メカニズムを提案します。提案されたアーキテクチャはエンコーダブロックとデコーダブロックで構成されています。画像特徴のエンコーディングには、消失勾配問題を解決し、複雑なオブジェクト特徴を認識する能力のあるResNet-50を選択しました。生成されたキャプションのデコーディングには、双方向ゲート付き再帰ユニット(GRU)アーキテクチャと注意メカニズムを組み合わせることで、両方向の文脈依存を捉え、より正確なキャプションを実現しています。論文では、特に文化的に特異な画像を用いたドメイン間の知識移転の課題にも注目しています。BAN-Cap、BanglaLekhaImageCaption、Bornonという3つのベンガル語ベンチマークデータセットの評価は、既存の手法に対してMETEORスコアでそれぞれ約30%、18%、45%の性能向上を示しています。提案された文脈に配慮した注意に基づく画像キャプション生成システムは、特定のデータセットにおける参照キャプションの制約にもかかわらず、ベンガル語のキャプション生成において現在の最先端モデルを大幅に上回っています。
Bhuiyan et al. (Mon,)がこの問題を研究しました。
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: