Key points are not available for this paper at this time.
Plus d'un an s'est écoulé depuis que les rapports sur la capacité de ChatGPT-3.5 à réussir des examens ont bouleversé le milieu éducatif. Ces premières inquiétudes ont conduit à une étude multi-institutionnelle et pluridisciplinaire visant à évaluer la performance de l'Intelligence Artificielle Générative (GenAI) face aux tâches d'évaluation utilisées dans 10 disciplines d'ingénierie, démontrant la capacité de la GenAI. Les types d'évaluations comprenaient des quiz en ligne, numériques, oraux, visuels, de programmation et rédactionnels (expérimentation, projet, réflexion et pensée critique, et recherche). Douze mois plus tard, l'étude a été répétée avec de nouveaux outils actualisés : ChatGPT-4, Copilot, Gemini, SciSpace et Wolfram. L'étude actualisée a examiné les différences de performance et de capacités, identifiant le meilleur outil pour chaque type d'évaluation. Les résultats montrent qu'une amélioration des performances et des fonctionnalités ne peut qu'accroître les inquiétudes concernant l'intégrité académique. Bien que les préoccupations liées à la triche soient centrales, des opportunités d'intégration de la GenAI pour améliorer l'enseignement et l'apprentissage sont possibles. Si chaque outil GenAI présente des forces et des faiblesses spécifiques, ChatGPT-4 s'est révélé polyvalent. Une matrice de sécurité et d'opportunité d'évaluation GenAI est présentée pour fournir à la communauté des orientations pratiques sur la gestion des risques d'intégrité des évaluations et des opportunités d'intégration pour améliorer l'apprentissage.
Nikolic et al. (Jeudi) ont étudié cette question.