Key points are not available for this paper at this time.
EINFÜHRUNG: Die Interkollegiale Mitgliedschaftsprüfung des Royal College of Surgeons (MRCS) Teil A bewertet allgemeine chirurgische Wissenschaften und angewandtes Wissen anhand von 300 Multiple-Choice-Fragen mit der einzig richtigen Antwort. Große Sprachmodelle (LLMs) werden mit riesigen Textmengen trainiert, um natürliche Sprachausgaben zu erzeugen, und die Anwendungen im Gesundheitswesen und in der medizinischen Ausbildung nehmen zu. METHODEN: Zwei LLMs, ChatGPT (OpenAI) und Bard (Google AI), wurden mit 300 Fragen aus einer beliebten MRCS Teil A-Fragensammlung getestet, ohne/mit Bedarf an Begründung (NJ/J). Die Ausgaben der LLMs wurden nach Genauigkeit, Übereinstimmung und Einsicht bewertet. ERGEBNISSE: ChatGPT erreichte eine Genauigkeit von 85,7%/84,3% für NJ/J-Codierungen. Bard erreichte eine Genauigkeit von 64%/64,3% für NJ/J-Codierungen. ChatGPT und Bard zeigten hohe Übereinstimmung für NJ (95,3%; 81,7%) und J (93,7%; 79,7%) Codierungen. ChatGPT und Bard lieferten in >98% bzw. >86% der Ausgaben eine aufschlussreiche Aussage. DISKUSSION: Diese Studie zeigt, dass ChatGPT eine Bestehensgenauigkeit im MRCS Teil A erreicht, und beide LLMs eine hohe Übereinstimmung erzielen und aufschlussreiche Antworten auf Testfragen geben. Es wurden jedoch Fälle von klinisch unangemessener oder ungenauer Entscheidungsfindung, unvollständigem Verständnis nuancierter klinischer Szenarien und der Nutzung veralteter Richtlinien festgestellt. LLMs sind zugängliche und zeiteffiziente Werkzeuge, haben Zugang zu umfangreichem klinischen Wissen und könnten die Betonung auf das Erinnern von Fakten in der medizinischen Ausbildung und Bewertung verringern. SCHLUSSFOLGERUNG: ChatGPT erreicht eine Bestehensgenauigkeit für MRCS Teil A mit übereinstimmenden und aufschlussreichen Ausgaben. Zukünftige Anwendungen von LLMs im Gesundheitswesen müssen vorsichtig in Bezug auf Halluzinationen und falsches Denken sein, haben jedoch das Potenzial, KI-unterstützte Kliniker zu entwickeln.
Yiu et al. (Diens,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: