October 10, 2022

이산적 추론을 통한 복합 문서 이해로의 접근

Key Points

Key points are not available for this paper at this time.

Abstract

문서 시각 질문 응답(Document Visual Question Answering, VQA)은 시각적으로 풍부한 문서에 대한 질문에 답하는 것을 목표로 합니다. 본 연구에서는 TAT-DQA라는 새로운 문서 VQA 데이터셋을 소개합니다. 이 데이터셋은 반구조적 테이블과 비구조적 텍스트로 구성된 3,067개의 문서 페이지와 16,558개의 질문-답변 쌍을 포함하고 있습니다. 문서는 재무 보고서에서 샘플링되었으며, 많은 숫자를 포함하고 있어 질문에 답하기 위해 이산적 추론 능력이 요구됩니다. TAT-DQA를 기반으로 우리는 다양한 유형의 질문에 해당 전략(즉, 추출 또는 추론)을 통해 지능적으로 대응할 수 있는 정보의 다중 양식을 고려한 새로운 모델 MHST를 개발했습니다. 실험 결과 MHST 모델이 기준 방법보다 현저히 뛰어난 성능을 보였으며, 그 효과성을 입증했습니다. 그러나 여전히 전문가 인간의 성능에는 훨씬 미치지 못합니다. 우리는 TAT-DQA 데이터셋이 시각적으로 풍부한 문서 이해 연구를 촉진할 것으로 기대하며, 특히 이산적 추론을 요구하는 시나리오에 유용할 것이라 생각합니다. 또한 제안된 모델이 연구자들이 향후 더 발전된 문서 VQA 모델을 설계하는 데 영감을 줄 수 있기를 바랍니다.

AI에게 질문

Bookmark

AI에게 질문

Bookmark

이산적 추론을 통한 복합 문서 이해로의 접근

Key Points

Abstract

Cite This Study