Key points are not available for this paper at this time.
視覚的基盤は、自然言語を画像に基づいて(つまり、位置特定)するタスクであり、本質的に複合的な視覚的推論を必要とします。しかし、既存の手法は、言語の複合的な性質を単一の文埋め込みまたは主語-述語-目的語三項の粗い構成に単純化しすぎています。本論文では、自然言語を直感的かつ説明可能で複合的な方法で基盤付けることを提案します。特に、文の依存解析ツリーに沿って視覚的基盤を正則化する新しいモジュラー ネットワークである神経モジュールツリーネットワーク (NMTree) を開発しました。各ノードはその言語的特徴に応じて視覚的注意を計算する神経モジュールであり、基盤スコアは必要に応じてボトムアップの方向で累積されます。NMTreeは視覚的基盤を複合的な推論から解きほぐし、前者は原始的かつ一般化しやすいパターンにのみ集中できるようにします。構文解析エラーの影響を軽減するために、モジュールとその組み立てを、グンベル-ソフトマックス近似とそのストレートスルー勾配推定器を使用してエンドツーエンドで訓練します。全体として、提案されたNMTreeは、いくつかのベンチマークで常に最先端の手法よりも優れた性能を示します。定性的な結果は、詳細における説明可能な基盤スコアの計算を示しています。
Liu et al. (Tue,) はこの問題を研究しました。