February 1, 2019Open Access

視覚対話のための再帰的二重注意による多段階推論

Key Points

Key points are not available for this paper at this time.

Abstract

本論文では、画像に関する一連の質問に答えるために多段階推論を使用する視覚対話の新しいモデル、再帰的二重注意ネットワーク（ReDAN）を提案します。対話の各質問応答ターンにおいて、ReDANは複数の推論ステップを通じて徐々に答えを推測します。推論プロセスの各ステップでは、質問の意味的表現が画像と前の対話履歴に基づいて更新され、再帰的に洗練された表現が次のステップでのさらなる推論に使用されます。VisDial v1.0データセットにおいて、提案するReDANモデルは64.47%のNDCGスコアの新しい最先端を達成しています。推論プロセスの視覚化は、ReDANが反復的な洗練を通じて文脈に関連する視覚的およびテキスト的手がかりを特定できることをさらに示しており、段階的に正しい答えに導くことができます。

Bookmark

View Full Paper

Bookmark

View Full Paper

視覚対話のための再帰的二重注意による多段階推論

Key Points

Abstract

Cite This Study