What question did this study set out to answer?

L'objectif est d'explorer l'application, la faisabilité et la performance des grands modèles de langage dans l'enseignement médical de premier cycle.

February 26, 2026Open Access

Utilisation des grands modèles de langage dans l'enseignement médical de premier cycle : une revue exploratoire

Key Points

L'objectif est d'explorer l'application, la faisabilité et la performance des grands modèles de langage dans l'enseignement médical de premier cycle.
Réalisation d'une revue exploratoire suivant les recommandations PRISMA-ScR et JBI.
Recherche systématique dans PubMed et Google Scholar d'études pertinentes de janvier 2021 à juillet 2025.
Inclusion d'études expérimentales, transversales et qualitatives évaluant l'utilisation des LLMs dans des évaluations formatives ou sommatives.
Huit études provenant de sept pays à revenu élevé et intermédiaire supérieur ont été incluses.
Le modèle le plus utilisé était ChatGPT, avec des applications comme la génération de QCM et la simulation clinique.
L'utilisabilité des QCM était élevée (91 % des modèles utilisables) et montrait une bonne corrélation avec les scores humains (r = 0,599–0,732).

Abstract

Résumé Contexte Les grands modèles de langage (LLMs), tels que ChatGPT, sont de plus en plus utilisés dans l'enseignement médical de premier cycle (UGME) pour l'évaluation, la simulation et l'apprentissage personnalisé. Cependant, l'étendue, la nature, la faisabilité et la diversité de leur application restent floues ; une cartographie complète des preuves de leur utilité, précision, faisabilité et des résultats rapportés est nécessaire pour informer une intégration fondée sur des preuves. Méthodes Une revue exploratoire a été réalisée selon les recommandations PRISMA-ScR et JBI pour identifier la littérature empirique concernant l'utilisation des LLMs en UGME. PubMed et Google Scholar ont été systématiquement recherchés pour des études publiées de janvier 2021 à juillet 2025. Les études éligibles étaient expérimentales, transversales et qualitatives, évaluant l'utilisation des LLMs dans des activités formatives et/ou sommatives. Les études ont été incluses si elles appliquaient les LLMs à l'évaluation, la simulation ou le soutien pédagogique auprès d'étudiants en préclinique ou clinique. Le type d'étude, pays/niveau de revenu, modèle de LLM, objectif, mode d'utilisation, niveau étudiant, mode d'invite, résultats et limitations ont été extraits. Résultats Au total, huit études ont été incluses provenant de sept pays (pays à revenu élevé et intermédiaire supérieur) ; ces pays indiquent où ces études ont été menées, plutôt que les pays d'origine des LLMs ou de leurs contextes éducatifs. Les études variaient entre essais transversaux, études de faisabilité, groupes focaux qualitatifs et analyses de notation mixtes. Le LLM le plus populaire était ChatGPT (versions 3.5, 4 et 4o). Les applications allaient de la génération de QCM, notation automatisée (OSCEs et réponses courtes), simulation clinique, soutien à la révision et feedback sur la documentation. La performance variait : utilisation des QCM (91 % des modèles étaient utilisables), forte corrélation avec les scores humains (r = 0,599–0,732), et les items GPT-4 étaient jugés quasi équivalents aux questions rédigées par des experts. Les risques de l'intervention incluaient des hallucinations (38 % de succès), des erreurs de contenu, un manque d'empathie et une génération de réponses biaisées. Le prompt engineering et la supervision humaine étaient nécessaires pour la qualité des résultats. Conclusion Les LLMs démontrent une faisabilité modérée à élevée dans les contextes UGME, particulièrement lorsqu'ils sont combinés à des invites structurées, une revue experte et une conscience des limites de l'IA. Malgré leur potentiel pour l'usage formatif et la montée en échelle, une validation psychométrique rigoureuse, une atténuation des hallucinations et biais, une validation multi-institutionnelle et une recherche centrée sur l'apprenant sont nécessaires.

Demander à l'IA

Bookmark

View Full Paper