أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات ممتازة في مجال الإجابة على الأسئلة الطبية الحيوية، لكن تطبيقها في الاستشارات الطبية الواقعية لا يزال يواجه تحديات أساسية. تتطلب أنظمة الاستشارات ذات الجولة الواحدة من المرضى وصف جميع الأعراض مقدمًا، مما يؤدي إلى تشخيص غامض مع شكاوى غير واضحة. نماذج الحوار متعددة الجولات التقليدية، المقيدة بالتعلم الخاضع للإشراف الثابت، تفتقر إلى المرونة وتفشل في استخراج المعلومات السريرية الرئيسية بذكاء. لمعالجة هذه القيود، نقترح إطارًا تعاونيًا متعدد الوكلاء قائمًا على تعلم التعزيز (RL) يصور الاستشارات الطبية كعملية اتخاذ قرار ديناميكية تحت حالة عدم اليقين. يعمل وكيل الطبيب على تحسين استراتيجيات التساؤل باستمرار ضمن إطار عمل RL من خلال تفاعلات متعددة الجولات مع وكيل المريض، مع تعديل ديناميكي لمسار جمع المعلومات بناءً على مكافآت شاملة من مقيم الاستشارة. تمكن آلية ضبط RL هذه النماذج اللغوية الكبيرة من تطوير استراتيجيات التفاعل بشكل مستقل تتماشى مع منطق التفكير السريري، بدلاً من تقليد الأنماط بشكل سطحي في بيانات الحوار الموجودة. ومن الجدير بالذكر أننا أنشأنا MTMedDialog، وهي أول مجموعة بيانات استشارات طبية متعددة الجولات باللغة الإنجليزية قادرة على محاكاة تفاعلات المرضى. تُظهر التجارب أن هذا النموذج يتفوق على النماذج القائمة في كل من قدرة التفكير متعددة الجولات وأداء التشخيص النهائي. يظهر هذا النهج قيمة عملية كبيرة من خلال تقليل مخاطر التشخيص الخاطئ في بيئات الضغط الزمني، وتحرير الأطباء للحالات المعقدة، وابتكار استراتيجية لتحسين تخصيص الموارد الطبية وتخفيف نقص القوى العاملة. الشفرة والبيانات متاحة على https: //github. com/JarvisUSTC/DoctorAgent-RL
درس Feng وآخرون (Mon,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: