La compréhension de lecture est essentielle au succès individuel, mais l'évaluation de la difficulté des questions reste un défi en raison de l'annotation humaine extensive et des tests à grande échelle requis par des méthodes traditionnelles telles que l'analyse linguistique et la théorie de la réponse à l'item (TRI). Bien que ces approches robustes offrent des perspectives précieuses, leur évolutivité est limitée. Il existe un potentiel pour que les grands modèles de langage (GML) automatisent l'estimation de la difficulté des questions ; cependant, ce domaine reste peu exploré. Notre étude examine l'efficacité des GML, en particulier ceux d'OpenAI, GPT-4o et o1, pour estimer la difficulté des questions de compréhension de lecture à l'aide du jeu de données Study Aid and Reading Assessment (SARA). Nous avons évalué à la fois l'exactitude des modèles à répondre aux questions de compréhension et leur capacité à classifier les niveaux de difficulté tels que définis par la TRI. Les résultats indiquent que, bien que les modèles produisent des estimations de difficulté qui s'alignent de manière significative avec les paramètres de TRI dérivés, il existe des différences notables dans leur sensibilité aux caractéristiques extrêmes des items. Ces résultats suggèrent que les GML peuvent servir de méthode évolutive pour l'évaluation automatisée de la difficulté, en particulier dans les interactions dynamiques entre les apprenants et les systèmes d'instruction adaptatifs (SIA), comblant le fossé entre les techniques psychométriques traditionnelles et les SIA modernes pour la compréhension de lecture et ouvrant la voie à des évaluations éducatives plus adaptatives et personnalisées.
Jain et al. (Mon,) ont étudié cette question.