What type of study is this?

This is a Validation Study study.

What question did this study set out to answer?

यह अनुसंधान न्यूरोलॉजी में चिकित्सीय तर्क को बढ़ाने के लिए बहु-एजेंट प्रणालियों की प्रभावशीलता का मूल्यांकन करना चाहता है।

December 8, 2025Open Access

न्यूरोलॉजिकल क्लिनिकल तर्क के लिए एक बहु-एजेंट दृष्टिकोण

Key Points

यह अनुसंधान न्यूरोलॉजी में चिकित्सीय तर्क को बढ़ाने के लिए बहु-एजेंट प्रणालियों की प्रभावशीलता का मूल्यांकन करना चाहता है।
इजरायली बोर्ड प्रमाणन परीक्षाओं से न्यूरोलॉजी में 305 प्रश्नों का एक मानक विकसित किया।
विभिन्न वास्तुकलाओं और संवर्द्धनों के साथ दस बड़े भाषा मॉडलों का मूल्यांकन किया।
न्यूरोलॉजिकल तर्क में विशेषज्ञ संज्ञानात्मक प्रक्रिया के लिए एक बहु-एजेंट प्रणाली लागू की।
OpenAI-o1 ने 90.9% सटीकता के साथ सर्वोच्च आधार प्रदर्शन हासिल किया।
बहु-एजेंट दृष्टिकोण ने सटीकता को काफी बढ़ाया, विशेष रूप से मध्य-स्तरीय मॉडलों के लिए।
RAG संवर्द्धन ने चर लाभ दिखाए, उच्च जटिलता वाले प्रश्नों पर सीमित प्रभावशीलता के साथ।

Abstract

बड़े भाषा मॉडल्स (एलएलएम) ने चिकित्सा क्षेत्रों में प्रभावशाली क्षमताएं दिखाईं हैं, फिर भी उनके क्लिनिकल न्यूरोलॉजी में आवश्यक विशिष्ट तर्क पैटर्न को संभालने की क्षमता का व्यवस्थित मूल्यांकन आवश्यक है। न्यूरोलॉजिकल मूल्यांकन में विशिष्ट चुनौतियाँ होती हैं जो शारीरिक स्थानिकीकरण, कालिक पैटर्न पहचान, और सूक्ष्म लक्षण व्याख्या को मिलाती हैं—ये संज्ञानात्मक प्रक्रियाएं बोर्ड प्रमाणन परीक्षाओं में विशेष रूप से परीक्षण की जाती हैं। हमने इजरायली बोर्ड प्रमाणन परीक्षाओं में न्यूरोलॉजी से 305 प्रश्नों का एक समग्र मानक विकसित किया और प्रत्येक को तीन जटिलता आयामों के अनुसार वर्गीकृत किया: तथ्यात्मक ज्ञान की गहराई, नैदानिक अवधारणा एकीकरण, और तर्क की जटिलता। इस मानक का उपयोग करते हुए, हमने विभिन्न वास्तुकलाओं और विशेषज्ञताओं वाले दस एलएलएम का मूल्यांकन किया, जिसमें बेस मॉडल, रिट्रीवल-अग्मेंटेड जनरेशन (RAG) संवर्द्धन, और एक नवीन बहु-एजेंट प्रणाली शामिल थी। हमारे विश्लेषण ने मॉडलों और पद्धतियों में महत्वपूर्ण प्रदर्शन भिन्नता दिखाई। OpenAI-o1 मॉडल ने उच्चतम बेस प्रदर्शन (90.9% सटीकता) प्राप्त किया, जबकि विशिष्ट चिकित्सा मॉडल आश्चर्यजनक रूप से कमजोर प्रदर्शन किए (Meditron-70B के लिए 52.9%)। RAG संवर्द्धन ने मॉडलों में विविध लाभ प्रदान किए; जैसे मध्य स्तरीय मॉडल GPT-4o के लिए महत्वपूर्ण सुधार (80.5% से 87.3%) और छोटे मॉडलों के लिए, लेकिन उच्च जटिलता वाले प्रश्नों पर मॉडल के आकार से परे सीमित प्रभावशीलता। इसके विपरीत, हमारा बहु-एजेंट फ्रेमवर्क—जो न्यूरोलॉजिकल तर्क को विशिष्ट संज्ञानात्मक कार्यों जैसे प्रश्न विश्लेषण, ज्ञान पुनःप्राप्ति, उत्तर संश्लेषण, और प्रमाणीकरण में विभाजित करता है—ने विशेष रूप से मध्य-स्तरीय मॉडलों की सटीकता में नाटकीय सुधार दिखाया। LLaMA 3.3-70B आधारित एजेंटिक सिस्टम ने 89.2% सटीकता प्राप्त की जबकि इसका बेस मॉडल 69.5% था, और स्तर 3 की जटिलता वाले प्रश्नों पर सभी आयामों में विशेष रूप से महत्वपूर्ण लाभ मिले। MedQA पर बाहरी मान्यकरण ने डेटासेट-विशिष्ट RAG प्रभाव दिखाए: बोर्ड प्रमाणन प्रदर्शन में RAG सुधार तो हुआ, लेकिन MedQA प्रश्नों पर इसका लाभ बहुत कम था (LLaMA 3.3-70B: बोर्ड परीक्षाओं पर +3.9% की तुलना में +1.4%), जो हमारे विशेष न्यूरोलॉजी पाठ्यपुस्तक और बोर्ड परीक्षा सामग्री के बीच सामंजस्य को दर्शाता है बजाय MedQA के लिए आवश्यक व्यापक चिकित्सा ज्ञान के। सबसे उल्लेखनीय बात यह है कि बहु-एजेंट दृष्टिकोण ने असंगत उपविशेषता प्रदर्शन को अत्यंत समान उत्कृष्टता में बदल दिया, जिसने RAG संवर्द्धन के बावजूद मौजूद रहने वाली न्यूरोलॉजिकल तर्क चुनौतियों को प्रभावी ढंग से हल किया। हमने MedQA से निकाले गए 155 न्यूरोलॉजिकल मामलों के स्वतंत्र डेटासेट का उपयोग करके अपने दृष्टिकोण का और मान्यकरण किया। परिणाम पुष्टि करते हैं कि संरचित बहु-एजेंट दृष्टिकोण जो विशिष्ट संज्ञानात्मक प्रक्रियाओं की नकल करते हैं, जटिल चिकित्सा तर्कों को काफी बढ़ाते हैं और चुनौतीपूर्ण क्लिनिकल संदर्भों में AI सहायता के लिए आशाजनक दिशाएं प्रदान करते हैं।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper