Key points are not available for this paper at this time.
एक न्यूरल नेटवर्क की जानकारी को अवशोषित करने की क्षमता इसके पैरामीटर की संख्या द्वारा सीमित होती है। संवेदी गणना, जहाँ नेटवर्क के कुछ हिस्से उदाहरण के आधार पर सक्रिय होते हैं, को थ्योरी में मॉडल क्षमता को नाटकीय रूप से बढ़ाने के लिए एक तरीके के रूप में प्रस्तावित किया गया है, बिना गणना में समानुपाती वृद्धि के। हालांकि, व्यावहारिक रूप से, महत्वपूर्ण एल्गोरिदमिक और प्रदर्शन संबंधी चुनौतियाँ हैं। इस काम में, हम इन चुनौतियों का सामना करते हैं और अंततः संवेदी गणना के वादे को साकार करते हैं, केवल आधुनिक GPU क्लस्टरों पर मामूली प्रदर्शन दक्षता में हानियों के साथ 1000x से अधिक मॉडल क्षमता में सुधार करते हैं। हम एक स्पार्सली-गेटेड मिश्रण-ऑफ-एक्सपर्ट्स परत (MoE) पेश करते हैं, जिसमें हजारों फीड-फॉरवर्ड उप-नेटवर्क शामिल होते हैं। एक ट्रेन करने योग्य गेटिंग नेटवर्क इन विशेषज्ञों का एक स्प्र्स संयोजन निर्धारित करता है जिसका उपयोग प्रत्येक उदाहरण के लिए किया जाता है। हम MoE को भाषा मॉडलिंग और मशीन अनुवाद के कार्यों पर लागू करते हैं, जहाँ मॉडल क्षमता प्रशिक्षण सामग्री में उपलब्ध विशाल मात्रा में ज्ञान को अवशोषित करने के लिए महत्वपूर्ण है। हम ऐसे मॉडल आर्किटेक्चर प्रस्तुत करते हैं जिसमें 137 अरब पैरामीटर तक का MoE stacked LSTM परतों के बीच कन्वोल्यूशनली लागू होता है। बड़े भाषा मॉडलिंग और मशीन अनुवाद बेंचमार्क पर, ये मॉडल अत्याधुनिक की तुलना में कम गणनात्मक लागत पर significativamente बेहतर परिणाम प्राप्त करते हैं।
शज़ीर एट अल। (सोम,) ने इस प्रश्न का अध्ययन किया।