बड़े भाषा मॉडल्स (एलएलएम) ने चिकित्सा क्षेत्रों में प्रभावशाली क्षमताएं दिखाईं हैं, फिर भी उनके क्लिनिकल न्यूरोलॉजी में आवश्यक विशिष्ट तर्क पैटर्न को संभालने की क्षमता का व्यवस्थित मूल्यांकन आवश्यक है। न्यूरोलॉजिकल मूल्यांकन में विशिष्ट चुनौतियाँ होती हैं जो शारीरिक स्थानिकीकरण, कालिक पैटर्न पहचान, और सूक्ष्म लक्षण व्याख्या को मिलाती हैं—ये संज्ञानात्मक प्रक्रियाएं बोर्ड प्रमाणन परीक्षाओं में विशेष रूप से परीक्षण की जाती हैं। हमने इजरायली बोर्ड प्रमाणन परीक्षाओं में न्यूरोलॉजी से 305 प्रश्नों का एक समग्र मानक विकसित किया और प्रत्येक को तीन जटिलता आयामों के अनुसार वर्गीकृत किया: तथ्यात्मक ज्ञान की गहराई, नैदानिक अवधारणा एकीकरण, और तर्क की जटिलता। इस मानक का उपयोग करते हुए, हमने विभिन्न वास्तुकलाओं और विशेषज्ञताओं वाले दस एलएलएम का मूल्यांकन किया, जिसमें बेस मॉडल, रिट्रीवल-अग्मेंटेड जनरेशन (RAG) संवर्द्धन, और एक नवीन बहु-एजेंट प्रणाली शामिल थी। हमारे विश्लेषण ने मॉडलों और पद्धतियों में महत्वपूर्ण प्रदर्शन भिन्नता दिखाई। OpenAI-o1 मॉडल ने उच्चतम बेस प्रदर्शन (90.9% सटीकता) प्राप्त किया, जबकि विशिष्ट चिकित्सा मॉडल आश्चर्यजनक रूप से कमजोर प्रदर्शन किए (Meditron-70B के लिए 52.9%)। RAG संवर्द्धन ने मॉडलों में विविध लाभ प्रदान किए; जैसे मध्य स्तरीय मॉडल GPT-4o के लिए महत्वपूर्ण सुधार (80.5% से 87.3%) और छोटे मॉडलों के लिए, लेकिन उच्च जटिलता वाले प्रश्नों पर मॉडल के आकार से परे सीमित प्रभावशीलता। इसके विपरीत, हमारा बहु-एजेंट फ्रेमवर्क—जो न्यूरोलॉजिकल तर्क को विशिष्ट संज्ञानात्मक कार्यों जैसे प्रश्न विश्लेषण, ज्ञान पुनःप्राप्ति, उत्तर संश्लेषण, और प्रमाणीकरण में विभाजित करता है—ने विशेष रूप से मध्य-स्तरीय मॉडलों की सटीकता में नाटकीय सुधार दिखाया। LLaMA 3.3-70B आधारित एजेंटिक सिस्टम ने 89.2% सटीकता प्राप्त की जबकि इसका बेस मॉडल 69.5% था, और स्तर 3 की जटिलता वाले प्रश्नों पर सभी आयामों में विशेष रूप से महत्वपूर्ण लाभ मिले। MedQA पर बाहरी मान्यकरण ने डेटासेट-विशिष्ट RAG प्रभाव दिखाए: बोर्ड प्रमाणन प्रदर्शन में RAG सुधार तो हुआ, लेकिन MedQA प्रश्नों पर इसका लाभ बहुत कम था (LLaMA 3.3-70B: बोर्ड परीक्षाओं पर +3.9% की तुलना में +1.4%), जो हमारे विशेष न्यूरोलॉजी पाठ्यपुस्तक और बोर्ड परीक्षा सामग्री के बीच सामंजस्य को दर्शाता है बजाय MedQA के लिए आवश्यक व्यापक चिकित्सा ज्ञान के। सबसे उल्लेखनीय बात यह है कि बहु-एजेंट दृष्टिकोण ने असंगत उपविशेषता प्रदर्शन को अत्यंत समान उत्कृष्टता में बदल दिया, जिसने RAG संवर्द्धन के बावजूद मौजूद रहने वाली न्यूरोलॉजिकल तर्क चुनौतियों को प्रभावी ढंग से हल किया। हमने MedQA से निकाले गए 155 न्यूरोलॉजिकल मामलों के स्वतंत्र डेटासेट का उपयोग करके अपने दृष्टिकोण का और मान्यकरण किया। परिणाम पुष्टि करते हैं कि संरचित बहु-एजेंट दृष्टिकोण जो विशिष्ट संज्ञानात्मक प्रक्रियाओं की नकल करते हैं, जटिल चिकित्सा तर्कों को काफी बढ़ाते हैं और चुनौतीपूर्ण क्लिनिकल संदर्भों में AI सहायता के लिए आशाजनक दिशाएं प्रदान करते हैं।
ड्विर अरान (गुरु,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: