Key points are not available for this paper at this time.
हाल के वर्षों में, बड़े भाषा मॉडल (LLMs) ने प्राकृतिक भाषा प्रसंस्करण में उल्लेखनीय प्रगति की है और चिकित्सा में संभावित अनुप्रयोगों को प्रदर्शित किया है। हालांकि, उनके पेशेवर क्षमताओं की विभिन्न चिकित्सा उपक्षेत्रों, जैसे इम्यूनोलॉजी, में व्यवस्थित मूल्यांकन की आवश्यकता है। इस अध्ययन में 11 प्रतिनिधि LLMs का व्यवस्थित मूल्यांकन किया गया, जिसमें DeepSeek, GPT, Llama, Gemma, और Qwen श्रृंखला शामिल हैं, जो रुमेटोलॉजी और क्लिनिकल इम्यूनोलॉजी में चीनी राष्ट्रीय स्वास्थ्य पेशेवर योग्यता परीक्षा के आधार पर हैं। मूल्यांकन में चार आयाम शामिल थे: बुनियादी चिकित्सा ज्ञान, संबंधित चिकित्सा ज्ञान, इम्यूनोलॉजी ज्ञान, और पेशेवर अभ्यास क्षमता। परिणामों से LLMs के बीच महत्वपूर्ण भिन्नताएँ प्रकट हुईं। DeepSeek-R1 और Qwen3 ने सर्वोत्तम प्रदर्शन किया, जिसमें सटीकता 90% से अधिक थी। हालांकि, पेशेवर अभ्यास क्षमता कार्यों पर प्रदर्शन अपेक्षाकृत निम्न बना रहा, जो जटिल चिकित्सीय अनुप्रयोगों में सीमाओं को उजागर करता है।
Wang et al. (Thu,) ने इस प्रश्न का अध्ययन किया।