इस काम में, हम Qwen3 प्रस्तुत करते हैं, जो Qwen मॉडल परिवार का नवीनतम संस्करण है। Qwen3 कई बड़े भाषा मॉडल (LLMs) का समूह है, जो प्रदर्शन, दक्षता और बहुभाषी क्षमताओं को बढ़ावा देने के लिए डिज़ाइन किया गया है। Qwen3 श्रृंखला में घने और विशेषज्ञता का मिश्रण (MoE) आर्किटेक्चर दोनों के मॉडल शामिल हैं, जिनकी पैमाना 0.6 से 235 अरब तक है। Qwen3 में एक प्रमुख नवाचार सोचने के मोड (जटिल, बहु-चरण तर्क के लिए) और गैर-सोचने के मोड (तेज, संदर्भ-प्रेरित प्रतिक्रियाओं के लिए) का एकीकृत रूप में समावेश है। इससे विभिन्न मॉडलों के बीच स्विच करने की आवश्यकता समाप्त हो जाती है--जैसे चैट-ऑप्टिमाइज्ड मॉडल (जैसे, GPT-4o) और समर्पित तर्क मॉडल (जैसे, QwQ-32B)--और उपयोगकर्ता क्वेरी या चैट टेम्पलेट के आधार पर गतिशील मोड स्विचिंग को सक्षम बनाता है। इस बीच, Qwen3 एक सोचने के बजट तंत्र का परिचय देता है, जिससे उपयोगकर्ता अनुमान के दौरान अनुकूलनशीलता पूर्वक संगणकीय संसाधनों को आवंटित कर सकते हैं, इस प्रकार विलंबता और प्रदर्शन को कार्य की जटिलता के आधार पर संतुलित करते हैं। इसके अलावा, प्रमुख मॉडलों के ज्ञान का लाभ उठाकर, हम छोटे पैमाने के मॉडलों को बनाने के लिए आवश्यक संगणकीय संसाधनों को महत्वपूर्ण रूप से कम करते हैं, जबकि उनकी अत्यधिक प्रतिस्पर्धी प्रदर्शन को सुनिश्चित करते हैं। अनुभवात्मक मूल्यांकन प्रदर्शित करते हैं कि Qwen3 विभिन्न बेंचमार्क पर राज्य-प्रमुख परिणाम प्राप्त करता है, जिसमें कोड जनरेशन, गणितीय तर्क, एजेंट कार्य इत्यादि जैसी कार्य शामिल हैं, जो बड़े MoE मॉडलों और स्वामित्व वाले मॉडलों के मुकाबले प्रतिस्पर्धी है। इसके पूर्ववर्ती Qwen2.5 की तुलना में, Qwen3 बहुभाषी समर्थन को 29 से 119 भाषाओं और बोलीों तक बढ़ाता है, बेहतर पारस्परिक समझ और जनरेशन क्षमताओं के माध्यम से वैश्विक पहुंच को बढ़ाता है। पुनरुत्पादकता और सामुदायिक-संचालित अनुसंधान और विकास को सुविधाजनक बनाने के लिए, सभी Qwen3 मॉडल Apache 2.0 के तहत सार्वजनिक रूप से उपलब्ध हैं।
Yang et al. (बुध,) ने इस प्रश्न का अध्ययन किया।