January 15, 2026Open Access

रुमेटोलॉजी और क्लिनिकल इम्यूनोलॉजी में बड़े भाषा मॉडल का मूल्यांकन: चीनी राष्ट्रीय स्वास्थ्य पेशेवर योग्यता परीक्षा के आधार पर एक व्यवस्थित मूल्यांकन

Key Points

Key points are not available for this paper at this time.

Abstract

हाल के वर्षों में, बड़े भाषा मॉडल (LLMs) ने प्राकृतिक भाषा प्रसंस्करण में उल्लेखनीय प्रगति की है और चिकित्सा में संभावित अनुप्रयोगों को प्रदर्शित किया है। हालांकि, उनके पेशेवर क्षमताओं की विभिन्न चिकित्सा उपक्षेत्रों, जैसे इम्यूनोलॉजी, में व्यवस्थित मूल्यांकन की आवश्यकता है। इस अध्ययन में 11 प्रतिनिधि LLMs का व्यवस्थित मूल्यांकन किया गया, जिसमें DeepSeek, GPT, Llama, Gemma, और Qwen श्रृंखला शामिल हैं, जो रुमेटोलॉजी और क्लिनिकल इम्यूनोलॉजी में चीनी राष्ट्रीय स्वास्थ्य पेशेवर योग्यता परीक्षा के आधार पर हैं। मूल्यांकन में चार आयाम शामिल थे: बुनियादी चिकित्सा ज्ञान, संबंधित चिकित्सा ज्ञान, इम्यूनोलॉजी ज्ञान, और पेशेवर अभ्यास क्षमता। परिणामों से LLMs के बीच महत्वपूर्ण भिन्नताएँ प्रकट हुईं। DeepSeek-R1 और Qwen3 ने सर्वोत्तम प्रदर्शन किया, जिसमें सटीकता 90% से अधिक थी। हालांकि, पेशेवर अभ्यास क्षमता कार्यों पर प्रदर्शन अपेक्षाकृत निम्न बना रहा, जो जटिल चिकित्सीय अनुप्रयोगों में सीमाओं को उजागर करता है।

Bookmark

View Full Paper

Bookmark

View Full Paper

Key Points

Abstract

Cite This Study