What type of study is this?

This is a Quantitative Study study.

October 9, 2025Open Access

Qwen3 तकनीकी रिपोर्ट

Key Points

Qwen3 बहुभाषी समर्थन को 29 से 119 भाषाओं तक बढ़ाता है, जो पारस्परिक समझ को बढ़ाता है।
सोचने के मोड और गैर-सोचने के मोड का एकीकरण कई मॉडल स्विच करने की आवश्यकता को समाप्त करता है।
अनुभवात्मक मूल्यांकन Qwen3 के प्रदर्शन को विभिन्न बेंचमार्क जैसे कोड जनरेशन और तर्क कार्यों पर प्रदर्शित करता है।
सोचने का बजट तंत्र अनुमान के दौरान अनुकूलनशील संगणकीय संसाधन आवंटन की अनुमति देता है।

Abstract

इस काम में, हम Qwen3 प्रस्तुत करते हैं, जो Qwen मॉडल परिवार का नवीनतम संस्करण है। Qwen3 कई बड़े भाषा मॉडल (LLMs) का समूह है, जो प्रदर्शन, दक्षता और बहुभाषी क्षमताओं को बढ़ावा देने के लिए डिज़ाइन किया गया है। Qwen3 श्रृंखला में घने और विशेषज्ञता का मिश्रण (MoE) आर्किटेक्चर दोनों के मॉडल शामिल हैं, जिनकी पैमाना 0.6 से 235 अरब तक है। Qwen3 में एक प्रमुख नवाचार सोचने के मोड (जटिल, बहु-चरण तर्क के लिए) और गैर-सोचने के मोड (तेज, संदर्भ-प्रेरित प्रतिक्रियाओं के लिए) का एकीकृत रूप में समावेश है। इससे विभिन्न मॉडलों के बीच स्विच करने की आवश्यकता समाप्त हो जाती है--जैसे चैट-ऑप्टिमाइज्ड मॉडल (जैसे, GPT-4o) और समर्पित तर्क मॉडल (जैसे, QwQ-32B)--और उपयोगकर्ता क्वेरी या चैट टेम्पलेट के आधार पर गतिशील मोड स्विचिंग को सक्षम बनाता है। इस बीच, Qwen3 एक सोचने के बजट तंत्र का परिचय देता है, जिससे उपयोगकर्ता अनुमान के दौरान अनुकूलनशीलता पूर्वक संगणकीय संसाधनों को आवंटित कर सकते हैं, इस प्रकार विलंबता और प्रदर्शन को कार्य की जटिलता के आधार पर संतुलित करते हैं। इसके अलावा, प्रमुख मॉडलों के ज्ञान का लाभ उठाकर, हम छोटे पैमाने के मॉडलों को बनाने के लिए आवश्यक संगणकीय संसाधनों को महत्वपूर्ण रूप से कम करते हैं, जबकि उनकी अत्यधिक प्रतिस्पर्धी प्रदर्शन को सुनिश्चित करते हैं। अनुभवात्मक मूल्यांकन प्रदर्शित करते हैं कि Qwen3 विभिन्न बेंचमार्क पर राज्य-प्रमुख परिणाम प्राप्त करता है, जिसमें कोड जनरेशन, गणितीय तर्क, एजेंट कार्य इत्यादि जैसी कार्य शामिल हैं, जो बड़े MoE मॉडलों और स्वामित्व वाले मॉडलों के मुकाबले प्रतिस्पर्धी है। इसके पूर्ववर्ती Qwen2.5 की तुलना में, Qwen3 बहुभाषी समर्थन को 29 से 119 भाषाओं और बोलीों तक बढ़ाता है, बेहतर पारस्परिक समझ और जनरेशन क्षमताओं के माध्यम से वैश्विक पहुंच को बढ़ाता है। पुनरुत्पादकता और सामुदायिक-संचालित अनुसंधान और विकास को सुविधाजनक बनाने के लिए, सभी Qwen3 मॉडल Apache 2.0 के तहत सार्वजनिक रूप से उपलब्ध हैं।

Qwen3 तकनीकी रिपोर्ट

Key Points

Abstract

Cite This Study