Key points are not available for this paper at this time.
Die Dokumentenübersetzung stellt eine Herausforderung für Systeme der Neuralen Maschinellen Übersetzung (NMT) dar. Die meisten NMT-Systeme auf Dokumentenebene basieren auf sorgfältig kuratierten parallelen Daten auf Satzebene und gehen von einer fehlerfreien Extraktion von Text aus Dokumenten sowie von deren präziser Leseordnung aus. Diese Systeme neigen auch dazu, zusätzliche visuelle Hinweise wie das Layout des Dokuments als irrelevant zu betrachten. Allerdings weisen reale Dokumente oft komplexe Textlayouts auf, die diesen Annahmen widersprechen. Die Informationsgewinnung aus der Optischen Zeichenerkennung (OCR) oder heuristischen Regeln kann zu Fehlern führen, und das Layout (z. B. Absätze, Überschriften) kann Beziehungen zwischen weit entfernten Textabschnitten vermitteln. Diese Komplexität ist besonders deutlich in weit verbreiteten PDF-Dokumenten, die Informationen visuell darstellen. Dieses Papier schließt diese Lücke, indem es M3T vorstellt, einen neuartigen Benchmark-Datensatz zur Bewertung von NMT-Systemen bei der umfassenden Aufgabe der Übersetzung von semi-strukturierten Dokumenten. Ziel dieses Datensatzes ist es, die Bewertungslücke in NMT-Systemen auf Dokumentenebene zu überbrücken und die Herausforderungen, die durch reichhaltige Textlayouts in realen Anwendungen entstehen, anzuerkennen.
Hsu et al. (Wed,) untersuchten diese Frage.