Key points are not available for this paper at this time.
本論文では、画像に関する一連の質問に答えるために多段階推論を使用する視覚対話の新しいモデル、再帰的二重注意ネットワーク(ReDAN)を提案します。対話の各質問応答ターンにおいて、ReDANは複数の推論ステップを通じて徐々に答えを推測します。推論プロセスの各ステップでは、質問の意味的表現が画像と前の対話履歴に基づいて更新され、再帰的に洗練された表現が次のステップでのさらなる推論に使用されます。VisDial v1.0データセットにおいて、提案するReDANモデルは64.47%のNDCGスコアの新しい最先端を達成しています。推論プロセスの視覚化は、ReDANが反復的な洗練を通じて文脈に関連する視覚的およびテキスト的手がかりを特定できることをさらに示しており、段階的に正しい答えに導くことができます。
Gan et al. (Fri,)はこの質問を研究しました。