Résumé Contexte Les grands modèles de langage (LLMs), tels que ChatGPT, sont de plus en plus utilisés dans l'enseignement médical de premier cycle (UGME) pour l'évaluation, la simulation et l'apprentissage personnalisé. Cependant, l'étendue, la nature, la faisabilité et la diversité de leur application restent floues ; une cartographie complète des preuves de leur utilité, précision, faisabilité et des résultats rapportés est nécessaire pour informer une intégration fondée sur des preuves. Méthodes Une revue exploratoire a été réalisée selon les recommandations PRISMA-ScR et JBI pour identifier la littérature empirique concernant l'utilisation des LLMs en UGME. PubMed et Google Scholar ont été systématiquement recherchés pour des études publiées de janvier 2021 à juillet 2025. Les études éligibles étaient expérimentales, transversales et qualitatives, évaluant l'utilisation des LLMs dans des activités formatives et/ou sommatives. Les études ont été incluses si elles appliquaient les LLMs à l'évaluation, la simulation ou le soutien pédagogique auprès d'étudiants en préclinique ou clinique. Le type d'étude, pays/niveau de revenu, modèle de LLM, objectif, mode d'utilisation, niveau étudiant, mode d'invite, résultats et limitations ont été extraits. Résultats Au total, huit études ont été incluses provenant de sept pays (pays à revenu élevé et intermédiaire supérieur) ; ces pays indiquent où ces études ont été menées, plutôt que les pays d'origine des LLMs ou de leurs contextes éducatifs. Les études variaient entre essais transversaux, études de faisabilité, groupes focaux qualitatifs et analyses de notation mixtes. Le LLM le plus populaire était ChatGPT (versions 3.5, 4 et 4o). Les applications allaient de la génération de QCM, notation automatisée (OSCEs et réponses courtes), simulation clinique, soutien à la révision et feedback sur la documentation. La performance variait : utilisation des QCM (91 % des modèles étaient utilisables), forte corrélation avec les scores humains (r = 0,599–0,732), et les items GPT-4 étaient jugés quasi équivalents aux questions rédigées par des experts. Les risques de l'intervention incluaient des hallucinations (38 % de succès), des erreurs de contenu, un manque d'empathie et une génération de réponses biaisées. Le prompt engineering et la supervision humaine étaient nécessaires pour la qualité des résultats. Conclusion Les LLMs démontrent une faisabilité modérée à élevée dans les contextes UGME, particulièrement lorsqu'ils sont combinés à des invites structurées, une revue experte et une conscience des limites de l'IA. Malgré leur potentiel pour l'usage formatif et la montée en échelle, une validation psychométrique rigoureuse, une atténuation des hallucinations et biais, une validation multi-institutionnelle et une recherche centrée sur l'apprenant sont nécessaires.
Uzoechina et al. (Mercredi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: