January 23, 2017Open Access

बेतहाशा बड़े न्यूरल नेटवर्क: स्पार्सली-गेटेड मिश्रण-ऑफ-एक्सपर्ट्स परत

Key Points

Key points are not available for this paper at this time.

Abstract

एक न्यूरल नेटवर्क की जानकारी को अवशोषित करने की क्षमता इसके पैरामीटर की संख्या द्वारा सीमित होती है। संवेदी गणना, जहाँ नेटवर्क के कुछ हिस्से उदाहरण के आधार पर सक्रिय होते हैं, को थ्योरी में मॉडल क्षमता को नाटकीय रूप से बढ़ाने के लिए एक तरीके के रूप में प्रस्तावित किया गया है, बिना गणना में समानुपाती वृद्धि के। हालांकि, व्यावहारिक रूप से, महत्वपूर्ण एल्गोरिदमिक और प्रदर्शन संबंधी चुनौतियाँ हैं। इस काम में, हम इन चुनौतियों का सामना करते हैं और अंततः संवेदी गणना के वादे को साकार करते हैं, केवल आधुनिक GPU क्लस्टरों पर मामूली प्रदर्शन दक्षता में हानियों के साथ 1000x से अधिक मॉडल क्षमता में सुधार करते हैं। हम एक स्पार्सली-गेटेड मिश्रण-ऑफ-एक्सपर्ट्स परत (MoE) पेश करते हैं, जिसमें हजारों फीड-फॉरवर्ड उप-नेटवर्क शामिल होते हैं। एक ट्रेन करने योग्य गेटिंग नेटवर्क इन विशेषज्ञों का एक स्प्र्स संयोजन निर्धारित करता है जिसका उपयोग प्रत्येक उदाहरण के लिए किया जाता है। हम MoE को भाषा मॉडलिंग और मशीन अनुवाद के कार्यों पर लागू करते हैं, जहाँ मॉडल क्षमता प्रशिक्षण सामग्री में उपलब्ध विशाल मात्रा में ज्ञान को अवशोषित करने के लिए महत्वपूर्ण है। हम ऐसे मॉडल आर्किटेक्चर प्रस्तुत करते हैं जिसमें 137 अरब पैरामीटर तक का MoE stacked LSTM परतों के बीच कन्वोल्यूशनली लागू होता है। बड़े भाषा मॉडलिंग और मशीन अनुवाद बेंचमार्क पर, ये मॉडल अत्याधुनिक की तुलना में कम गणनात्मक लागत पर significativamente बेहतर परिणाम प्राप्त करते हैं।

Bookmark

View Full Paper

Bookmark

View Full Paper

बेतहाशा बड़े न्यूरल नेटवर्क: स्पार्सली-गेटेड मिश्रण-ऑफ-एक्सपर्ट्स परत

Key Points

Abstract

Cite This Study