What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

Explorer le potentiel des grands modèles de langage pour estimer la difficulté des questions de compréhension de lecture

Key Points

Les GML estiment efficacement la difficulté des questions de compréhension de lecture, s'alignant avec les paramètres traditionnels de la TRI.
Les modèles ont présenté des estimations de difficulté significatives mais ont varié en sensibilité aux caractéristiques extrêmes des items.
En utilisant le jeu de données SARA, nous avons évalué l'exactitude des GML à répondre aux questions de compréhension.
Les résultats montrent que les GML comblent le fossé entre les psychométries traditionnelles et les systèmes d'instruction adaptatifs modernes.

Abstract

La compréhension de lecture est essentielle au succès individuel, mais l'évaluation de la difficulté des questions reste un défi en raison de l'annotation humaine extensive et des tests à grande échelle requis par des méthodes traditionnelles telles que l'analyse linguistique et la théorie de la réponse à l'item (TRI). Bien que ces approches robustes offrent des perspectives précieuses, leur évolutivité est limitée. Il existe un potentiel pour que les grands modèles de langage (GML) automatisent l'estimation de la difficulté des questions ; cependant, ce domaine reste peu exploré. Notre étude examine l'efficacité des GML, en particulier ceux d'OpenAI, GPT-4o et o1, pour estimer la difficulté des questions de compréhension de lecture à l'aide du jeu de données Study Aid and Reading Assessment (SARA). Nous avons évalué à la fois l'exactitude des modèles à répondre aux questions de compréhension et leur capacité à classifier les niveaux de difficulté tels que définis par la TRI. Les résultats indiquent que, bien que les modèles produisent des estimations de difficulté qui s'alignent de manière significative avec les paramètres de TRI dérivés, il existe des différences notables dans leur sensibilité aux caractéristiques extrêmes des items. Ces résultats suggèrent que les GML peuvent servir de méthode évolutive pour l'évaluation automatisée de la difficulté, en particulier dans les interactions dynamiques entre les apprenants et les systèmes d'instruction adaptatifs (SIA), comblant le fossé entre les techniques psychométriques traditionnelles et les SIA modernes pour la compréhension de lecture et ouvrant la voie à des évaluations éducatives plus adaptatives et personnalisées.

Explorer le potentiel des grands modèles de langage pour estimer la difficulté des questions de compréhension de lecture

Key Points

Abstract

Cite This Study