Key points are not available for this paper at this time.
A análise de layout de documentos é um passo crucial para a compreensão inteligente de documentos. No entanto, muitos métodos existentes se concentram principalmente nos aspectos visuais e negligenciam as características textuais dos documentos. Embora os modelos de documentos pré-treinados utilizem recursos multi-modais durante a fase de pré-treinamento, eles tendem a operar como um pipeline unimodal quando se trata de tarefas de análise de layout. Além disso, os métodos multi-modais atuais apresentam um desempenho pior do que os detectores unimodais em conjuntos de dados complexos de análise de layout. Para abordar essas limitações, propomos uma abordagem de fusão multi-modal eficaz e plugável chamada M2Doc, que funde recursos visuais e textuais para uma melhor detecção de layout. O M2Doc contém dois módulos de fusão multi-modal plugáveis, fusão precoce e fusão tardia, que alinham e fundem recursos visuais e textuais no nível do pixel e no nível do bloco. Beneficiando-se da concisão e eficácia do M2Doc, ele pode ser facilmente aplicado a diversos detectores para uma melhor detecção de layout, incluindo detectores de objetos de duas etapas e fim a fim. Nossos resultados experimentais demonstram melhorias significativas de desempenho em detectores equipados com M2Doc em conjuntos de dados como DocLayNet (+11,3 mAP) e M6Doc (+1,9 mAP). Além disso, por meio da integração do detector DINO com o M2Doc, conseguimos resultados de ponta em DocLayNet (89,0 mAP), M6Doc (69,9 mAP) e PubLayNet (95,5 mAP). O código será liberado publicamente em https://github.com/johnning2333/M2Doc.
Zhang et al. (Sun,) estudaram esta questão.