Key points are not available for this paper at this time.
स्पार्स मिक्स्चर ऑफ एक्सपर्ट्स (SMoE) का व्यापक रूप से ट्रांसफॉर्मर-आधारित फाउंडेशनल मॉडलों के प्रशिक्षण और अनुमान की दक्षता बढ़ाने के लिए उपयोग किया गया है, जिससे आशाजनक परिणाम मिले हैं। हालांकि, SMoE का प्रदर्शन बहुत हद तक हाइपर-पैरामीटर के चयन पर निर्भर करता है, जैसे कि विशेषज्ञों की संख्या और सक्रिय किए जाने वाले विशेषज्ञों की संख्या (जिसे टॉप-k कहा जाता है), जिससे विभिन्न हाइपर-पैरामीटर विन्यासों की खोज के कारण महत्वपूर्ण कंप्यूटेशनल ओवरहेड होता है। इस समस्या के समाधान के रूप में, हमने डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स (DynMoE) तकनीक पेश की है। DynMoE में (1) एक नवीन गेटिंग विधि शामिल है जो प्रत्येक टोकन को स्वचालित रूप से सक्रिय किए जाने वाले विशेषज्ञों की संख्या निर्धारित करने में सक्षम बनाती है। (2) एक अनुकूली प्रक्रिया जो प्रशिक्षण के दौरान विशेषज्ञों की संख्या को स्वचालित रूप से समायोजित करती है। विज़न, भाषा और विज़न-भाषा कार्यों में व्यापक संख्यात्मक परिणाम हमारे दृष्टिकोण की प्रभावशीलता प्रदर्शित करते हैं, जो विज़न और भाषा कार्यों के लिए GMoE और विज़न-भाषा कार्यों के लिए MoE-LLaVA की तुलना में प्रतिस्पर्धी प्रदर्शन प्राप्त करते हैं, जबकि कम पैरामीटर सक्रिय करके दक्षता बनाए रखते हैं। हमारे कोड उपलब्ध है https://github.com/LINs-lab/DynMoE पर।
Guo et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: