June 1, 2023Open Access

تقييم حدود الذكاء الاصطناعي في التخصص الطبي: أداء ChatGPT في امتحان شهادة التخصص في علم الأعصاب في المملكة المتحدة

Key Points

Key points are not available for this paper at this time.

Abstract

الخلفية: أظهرت النماذج اللغوية الكبيرة مثل ChatGPT إمكانات كأدوات مبتكرة للتعليم والممارسة الطبية، حيث أظهرت الدراسات قدرتها على الأداء عند أو بالقرب من حد النجاح في الامتحانات الطبية العامة واختبارات القبول المعيارية. ومع ذلك، لم تقيم أي دراسات أدائها في سياق التعليم الطبي في المملكة المتحدة، وخاصة على مستوى التخصص، وبالتحديد في مجال علم الأعصاب وعلوم الأعصاب. الطرق: قمنا بتقييم أداء ChatGPT في تدريب التخصص العالي لعلاج الأعصاب وعلوم الأعصاب باستخدام 69 سؤالًا من بنك أسئلة امتحان شهادة التخصص (SCE) الخاص بعلم الأعصاب. كان التركيز الأساسي للبيانات على علم الأعصاب (80%). شملت الأسئلة مواضيع فرعية مثل الأعراض والعلامات، والتشخيص، والتفسير والإدارة، مع معالجة بعض الأسئلة لمجموعات مرضى محددة. تم تقييم أداء نماذج ChatGPT 3.5 Legacy وChatGPT 3.5 Default وChatGPT-4 ومقارنتها. النتائج: أظهرت ChatGPT 3.5 Legacy وChatGPT 3.5 Default دقة عامة بنسبة 42% و57%، على التوالي، مما يعكس قصورها عن حد النجاح البالغ 58% في امتحان SCE لعلم الأعصاب لعام 2022. من ناحية أخرى، حقق ChatGPT-4 أعلى دقة بلغت 64%، متجاوزًا حد النجاح وتفوقًا على أسلافه عبر التخصصات والمواضيع الفرعية. الاستنتاجات: تُظهر التقدم في أداء ChatGPT-4 مقارنة بأسلافه الإمكانات لنماذج الذكاء الاصطناعي في التعليم والممارسة الطبية المتخصصة. ومع ذلك، تبرز نتائجنا أيضًا الحاجة إلى تطوير مستمر وتعاون بين مطوري الذكاء الاصطناعي وخبراء الطب لضمان ملاءمة وموثوقية النماذج في مجال الطب الذي يتطور بسرعة.

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper