Key points are not available for this paper at this time.
구조 정보는 문서, 표, 차트와 같은 텍스트가 풍부한 이미지의 의미를 이해하는 데 중요합니다. 시각적 문서 이해를 위한 기존의 다중 모달 대형 언어 모델(MLLM)은 텍스트 인식 능력을 갖추고 있지만, 텍스트가 풍부한 문서 이미지에 대한 일반적인 구조 이해 능력이 부족합니다. 본 연구에서는 시각적 문서 이해에서 구조 정보의 중요성을 강조하고, MLLM의 성능을 향상시키기 위한 통합 구조 학습을 제안합니다. 우리의 통합 구조 학습은 문서, 웹 페이지, 표, 차트 및 자연 이미지의 5개 도메인에서 구조 인식 파싱 작업과 다중 세분화 텍스트 위치 지정 작업으로 구성됩니다. 구조 정보를 더 잘 인코딩하기 위해, 우리는 레이아웃 정보를 유지할 수 있을 뿐만 아니라 합성을 통해 수평 인접 패치를 병합하여 시각적 특징의 길이를 줄이는 간단하고 효과적인 비전-텍스트 모듈 H-Reducer를 설계하였습니다. 이는 LLM이 고해상도 이미지를 더 효율적으로 이해할 수 있도록 합니다. 또한 공개적으로 이용 가능한 텍스트가 풍부한 이미지에 대해 구조 인식 텍스트 시퀀스와 텍스트 및 바운딩 박스의 다중 세분화 쌍을 구성하여, 구조 학습을 지원하기 위한 종합적인 훈련 세트 DocStruct4M을 구축합니다. 마지막으로, 문서 영역에서 구체적인 설명 능력을 활성화하기 위해 소규모지만 고품질의 추론 조정 데이터 세트 DocReason25K를 구축합니다. 우리의 모델 DocOwl 1.5는 10개의 시각적 문서 이해 벤치마크에서 최첨단 성능을 달성하며, 5개 벤치마크에서 7B LLM의 SOTA 성능을 10점 이상 향상시킵니다. 우리의 코드, 모델 및 데이터 세트는 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5 에서 공개됩니다.
Hu et al. (Tue,)은 이 질문을 연구하였습니다.