Key points are not available for this paper at this time.
문서 시각 질문 응답(Document Visual Question Answering, VQA)은 시각적으로 풍부한 문서에 대한 질문에 답하는 것을 목표로 합니다. 본 연구에서는 TAT-DQA라는 새로운 문서 VQA 데이터셋을 소개합니다. 이 데이터셋은 반구조적 테이블과 비구조적 텍스트로 구성된 3,067개의 문서 페이지와 16,558개의 질문-답변 쌍을 포함하고 있습니다. 문서는 재무 보고서에서 샘플링되었으며, 많은 숫자를 포함하고 있어 질문에 답하기 위해 이산적 추론 능력이 요구됩니다. TAT-DQA를 기반으로 우리는 다양한 유형의 질문에 해당 전략(즉, 추출 또는 추론)을 통해 지능적으로 대응할 수 있는 정보의 다중 양식을 고려한 새로운 모델 MHST를 개발했습니다. 실험 결과 MHST 모델이 기준 방법보다 현저히 뛰어난 성능을 보였으며, 그 효과성을 입증했습니다. 그러나 여전히 전문가 인간의 성능에는 훨씬 미치지 못합니다. 우리는 TAT-DQA 데이터셋이 시각적으로 풍부한 문서 이해 연구를 촉진할 것으로 기대하며, 특히 이산적 추론을 요구하는 시나리오에 유용할 것이라 생각합니다. 또한 제안된 모델이 연구자들이 향후 더 발전된 문서 VQA 모델을 설계하는 데 영감을 줄 수 있기를 바랍니다.
Zhu et al. (Mon,)은 이 질문을 연구했습니다.