May 23, 2024Open Access

डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स: कुशल ट्रांसफॉर्मर मॉडलों के लिए एक ऑटो-ट्यूनिंग दृष्टिकोण

Key Points

Key points are not available for this paper at this time.

Abstract

स्पार्स मिक्स्चर ऑफ एक्सपर्ट्स (SMoE) का व्यापक रूप से ट्रांसफॉर्मर-आधारित फाउंडेशनल मॉडलों के प्रशिक्षण और अनुमान की दक्षता बढ़ाने के लिए उपयोग किया गया है, जिससे आशाजनक परिणाम मिले हैं। हालांकि, SMoE का प्रदर्शन बहुत हद तक हाइपर-पैरामीटर के चयन पर निर्भर करता है, जैसे कि विशेषज्ञों की संख्या और सक्रिय किए जाने वाले विशेषज्ञों की संख्या (जिसे टॉप-k कहा जाता है), जिससे विभिन्न हाइपर-पैरामीटर विन्यासों की खोज के कारण महत्वपूर्ण कंप्यूटेशनल ओवरहेड होता है। इस समस्या के समाधान के रूप में, हमने डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स (DynMoE) तकनीक पेश की है। DynMoE में (1) एक नवीन गेटिंग विधि शामिल है जो प्रत्येक टोकन को स्वचालित रूप से सक्रिय किए जाने वाले विशेषज्ञों की संख्या निर्धारित करने में सक्षम बनाती है। (2) एक अनुकूली प्रक्रिया जो प्रशिक्षण के दौरान विशेषज्ञों की संख्या को स्वचालित रूप से समायोजित करती है। विज़न, भाषा और विज़न-भाषा कार्यों में व्यापक संख्यात्मक परिणाम हमारे दृष्टिकोण की प्रभावशीलता प्रदर्शित करते हैं, जो विज़न और भाषा कार्यों के लिए GMoE और विज़न-भाषा कार्यों के लिए MoE-LLaVA की तुलना में प्रतिस्पर्धी प्रदर्शन प्राप्त करते हैं, जबकि कम पैरामीटर सक्रिय करके दक्षता बनाए रखते हैं। हमारे कोड उपलब्ध है https://github.com/LINs-lab/DynMoE पर।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper