Key points are not available for this paper at this time.
우리는 객체 인식 및 검출과 같은 기본 지각 작업에서 큰 발전을 보았습니다. 그러나 AI 모델은 깊은 추론 능력이 부족하여 여전히 고차원 비전 작업에서 인간과 맞먹지 못합니다. 최근에는 모델의 깊은 이미지 이해 능력을 평가하기 위한 새로운 작업인 비주얼 질문 응답(QA)이 제안되었습니다. 이전의 연구들은 QA 문장과 이미지 간의 느슨하고 전반적인 연관성을 확립했습니다. 그러나 많은 질문과 답변은 실제로 이미지의 지역적인 영역과 관련이 있습니다. 우리는 객체 수준의 기초(mapping)를 통해 텍스트 설명과 이미지 영역 간의 의미적 연결을 수립합니다. 이를 통해 이전 작업에서 사용된 텍스트 응답 외에 시각적 응답을 포함한 새로운 유형의 QA가 가능해집니다. 우리는 7W 다중 선택 QA 쌍의 대규모 컬렉션을 기반으로 한 근거 있는 설정에서 비주얼 QA 작업을 연구합니다. 더욱이, 우리는 QA 작업에 대한 인간 성능과 여러 기준 모델을 평가합니다. 마지막으로, 우리는 7W QA 작업을 해결하기 위해 공간적 주의를 가진 새로운 LSTM 모델을 제안합니다.
Zhu et al. (Wed,)는 이 질문을 연구했습니다.