La prolifération des grands modèles de langage multimodaux a considérablement avancé la capacité d'analyser et de comprendre des données complexes provenant de différentes modalités. Cependant, le traitement de documents longs reste peu exploré, principalement en raison d'un manque de benchmarks appropriés. Pour y remédier, nous introduisons Document Haystack, un benchmark complet conçu pour évaluer les performances des modèles de langage visuel (VLMs) sur des documents longs et visuellement complexes. Document Haystack comprend des documents allant de 5 à 200 pages et insère stratégiquement des "aiguilles" de texte pur ou de texte multimodal+image à différentes profondeurs dans les documents pour défier les capacités de récupération des VLMs. Composé de 400 variantes de documents et d'un total de 8 250 questions, il est soutenu par un cadre d'évaluation objectif et automatisé. Nous détaillons la construction et les caractéristiques du jeu de données Document Haystack, présentons les résultats des VLMs de premier plan et discutons des pistes de recherche potentielles dans ce domaine.
Huybrechts et al. (Fri,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: