What question did this study set out to answer?

This research aims to create a comprehensive multilingual text corpus to facilitate studies on reading and language processing across diverse languages.

May 10, 2026Open Access

The MultiplEYE Text Corpus: Towards a Diverse and Ever-Expanding Multilingual Text Corpus

Key Points

This research aims to create a comprehensive multilingual text corpus to facilitate studies on reading and language processing across diverse languages.
Developed a document-level, multi-parallel resource with paragraph-level alignment in 39 languages.
Ensured cross-linguistic comparability through unified translation and experimental design guidelines.
Included texts of various types and difficulties for eye-tracking-while-reading studies.
The corpus includes texts from seven language families and seven scripts, promoting diverse linguistic investigations.
A significant number of documents were originally written in non-English languages, minimizing bias.
Data supports research on discourse-level processing and individual differences across various languages.

Abstract

We present the MultiplEYE Text Corpus, a large-scale, document-level, multi-parallel resource designed to advance cross-linguistic research on reading and language processing. The corpus provides paragraph-level alignment for texts in 39 languages spanning seven language families and seven scripts. Unlike many existing multilingual corpora, a substantial number of documents were originally written in languages other than English, reducing English-centric bias and supporting more typologically diverse investigations. The texts are carefully selected to balance linguistic richness with experimental feasibility, particularly for eye-tracking-while-reading studies. Developed within a multi-lab initiative, the MultiplEYE Text Corpus follows unified translation, alignment, and experimental design guidelines to ensure cross-linguistic comparability. Its inclusion of texts varying in type and difficulty enables research on discourselevel processing, genre effects, and individual differences across a wide range of languages. The text corpus and accompanying metadata provide a robust foundation for multilingual psycholinguistic and computational modeling research. Data and materials are publicly available at https://doi.org/10.23668/psycharchives.21750.

The MultiplEYE Text Corpus: Towards a Diverse and Ever-Expanding Multilingual Text Corpus

Key Points

Abstract

Cite This Study

Also Consider

Also Consider