What type of study is this?

This is a Quantitative Study study.

September 22, 2025Open Access

Document Haystack : Un benchmark de compréhension multimodale d'images/documents avec un contexte long pour les LLM vision

Key Points

Document Haystack améliore l'évaluation des modèles de langage visuel sur des documents longs, visant à faire progresser la compréhension multimodale.
Le benchmark comprend 400 variantes de documents et 8 250 questions, testant divers défis de récupération pour les VLMs.
Utilisant un cadre d'évaluation automatisé, il vise à standardiser les évaluations des performances des VLMs sur des formats de documents complexes.
La recherche met en évidence un besoin émergent de meilleurs outils pour traiter des entrées longues et multimodales, ouvrant la voie à de futures avancées.

Abstract

La prolifération des grands modèles de langage multimodaux a considérablement avancé la capacité d'analyser et de comprendre des données complexes provenant de différentes modalités. Cependant, le traitement de documents longs reste peu exploré, principalement en raison d'un manque de benchmarks appropriés. Pour y remédier, nous introduisons Document Haystack, un benchmark complet conçu pour évaluer les performances des modèles de langage visuel (VLMs) sur des documents longs et visuellement complexes. Document Haystack comprend des documents allant de 5 à 200 pages et insère stratégiquement des "aiguilles" de texte pur ou de texte multimodal+image à différentes profondeurs dans les documents pour défier les capacités de récupération des VLMs. Composé de 400 variantes de documents et d'un total de 8 250 questions, il est soutenu par un cadre d'évaluation objectif et automatisé. Nous détaillons la construction et les caractéristiques du jeu de données Document Haystack, présentons les résultats des VLMs de premier plan et discutons des pistes de recherche potentielles dans ce domaine.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper