Key points are not available for this paper at this time.
A tradução de documentos representa um desafio para os sistemas de Tradução Automática Neural (NMT). A maioria dos sistemas NMT em nível de documento depende de dados paralelos em nível de frase meticulosamente curados, assumindo uma extração impecável de texto de documentos juntamente com sua ordem de leitura precisa. Esses sistemas também tendem a desconsiderar pistas visuais adicionais, como o layout do documento, considerando-o irrelevante. No entanto, documentos do mundo real frequentemente possuem layouts de texto intrincados que desafiam essas suposições. A extração de informações por meio de Reconhecimento Óptico de Caracteres (OCR) ou regras heurísticas pode resultar em erros, e o layout (por exemplo, parágrafos, cabeçalhos) pode transmitir relações entre seções distantes do texto. Essa complexidade é particularmente evidente em documentos PDF amplamente utilizados, que representam informações de forma visual. Este artigo aborda essa lacuna ao introduzir o M3T, um novo conjunto de dados de referência projetado para avaliar sistemas NMT na tarefa abrangente de traduzir documentos semi-estruturados. Este conjunto de dados visa preencher a lacuna de avaliação em sistemas NMT em nível de documento, reconhecendo os desafios impostos por layouts de texto ricos em aplicações do mundo real.
Hsu et al. (Quarta-feira,) estudaram essa questão.