Key points are not available for this paper at this time.
تحظى النماذج اللغوية الكبيرة (LLMs) باهتمام متزايد لتحسين الكفاءة السريرية، نظرًا لأدائها غير المسبوق في نمذجة اللغة الطبيعية. ولضمان التطبيقات السريرية الموثوقة، يصبح تقييم النماذج اللغوية الكبيرة أمرًا حاسمًا لتقليل المخاطر المحتملة، مثل الهلاوس. ومع ذلك، تعتمد الطرق الحالية للتقييم بشكل كبير على المشاركة البشرية المكثفة لتحقيق الأحكام المفضلة للبشر. للتغلب على هذا التحدي، نقترح نموذج تقييم آلي مصمم خصيصًا لتقييم قدرات النماذج اللغوية الكبيرة في تقديم الخدمات السريرية، مثل تشخيص الأمراض والعلاج. يحتوي نموذج التقييم على ثلاثة عناصر أساسية: المقياس، البيانات، والخوارزمية. على وجه التحديد، مستوحى من مسارات الممارسة السريرية المهنية، نصيغ مسارًا سريريًا خاصًا بالنماذج اللغوية الكبيرة (LCP) لتعريف القدرات السريرية التي يجب أن يمتلكها وكيل طبيب. ثم يتم إدخال المرضى المعياريين (SPs) من التعليم الطبي كدليل لجمع البيانات الطبية للتقييم، مما يضمن اكتمال إجراء التقييم بشكل جيد. مستفيدين من هذه الخطوات، نطور إطار عمل متعدد الوكلاء لمحاكاة البيئة التفاعلية بين المرضى المعياريين ووكيل الطبيب، والذي تم تزويده بتقييم معزز بالاسترجاع (RAE) لتحديد ما إذا كانت سلوكيات وكيل الطبيب متوافقة مع LCP. يمكن توسيع النموذج أعلاه لأي سيناريوهات سريرية مماثلة لتقييم القدرات الطبية للنماذج اللغوية الكبيرة تلقائيًا. بتطبيق هذا النموذج، نبني معيار تقييم في مجال جراحة المسالك البولية، يشمل LCP، وبيانات المرضى المعياريين، وRAE المؤتمت. تُجرى تجارب موسعة لإثبات فعالية النهج المقترح، مما يقدم رؤى أعمق لنشر النماذج اللغوية الكبيرة بأمان وموثوقية في الممارسة السريرية.
درس ليو وآخرون (Sat,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: