August 24, 2024Open Access

نحو تقييم آلي لقدرات النماذج اللغوية الكبيرة السريرية: المقياس، البيانات، والخوارزمية

Key Points

Key points are not available for this paper at this time.

Abstract

تحظى النماذج اللغوية الكبيرة (LLMs) باهتمام متزايد لتحسين الكفاءة السريرية، نظرًا لأدائها غير المسبوق في نمذجة اللغة الطبيعية. ولضمان التطبيقات السريرية الموثوقة، يصبح تقييم النماذج اللغوية الكبيرة أمرًا حاسمًا لتقليل المخاطر المحتملة، مثل الهلاوس. ومع ذلك، تعتمد الطرق الحالية للتقييم بشكل كبير على المشاركة البشرية المكثفة لتحقيق الأحكام المفضلة للبشر. للتغلب على هذا التحدي، نقترح نموذج تقييم آلي مصمم خصيصًا لتقييم قدرات النماذج اللغوية الكبيرة في تقديم الخدمات السريرية، مثل تشخيص الأمراض والعلاج. يحتوي نموذج التقييم على ثلاثة عناصر أساسية: المقياس، البيانات، والخوارزمية. على وجه التحديد، مستوحى من مسارات الممارسة السريرية المهنية، نصيغ مسارًا سريريًا خاصًا بالنماذج اللغوية الكبيرة (LCP) لتعريف القدرات السريرية التي يجب أن يمتلكها وكيل طبيب. ثم يتم إدخال المرضى المعياريين (SPs) من التعليم الطبي كدليل لجمع البيانات الطبية للتقييم، مما يضمن اكتمال إجراء التقييم بشكل جيد. مستفيدين من هذه الخطوات، نطور إطار عمل متعدد الوكلاء لمحاكاة البيئة التفاعلية بين المرضى المعياريين ووكيل الطبيب، والذي تم تزويده بتقييم معزز بالاسترجاع (RAE) لتحديد ما إذا كانت سلوكيات وكيل الطبيب متوافقة مع LCP. يمكن توسيع النموذج أعلاه لأي سيناريوهات سريرية مماثلة لتقييم القدرات الطبية للنماذج اللغوية الكبيرة تلقائيًا. بتطبيق هذا النموذج، نبني معيار تقييم في مجال جراحة المسالك البولية، يشمل LCP، وبيانات المرضى المعياريين، وRAE المؤتمت. تُجرى تجارب موسعة لإثبات فعالية النهج المقترح، مما يقدم رؤى أعمق لنشر النماذج اللغوية الكبيرة بأمان وموثوقية في الممارسة السريرية.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper