March 2, 2024Open Access

HeteGen: रिसोर्स-सीमित उपकरणों पर बड़े भाषा मॉडल के लिए विषम समानांतर अनुमान

Key Points

Key points are not available for this paper at this time.

Abstract

हाल के समय में, बड़े भाषा मॉडल्स (LLMs) के उदय के कारण मॉडल का आकार दिन-ब-दिन बढ़ता जा रहा है, जिससे कम संसाधन वाले उपकरणों पर अनुमान लगाने में चुनौतियाँ उत्पन्न होती हैं। पहले के तरीकों ने कम मेमोरी वाले अनुमान को सक्षम बनाने के लिए ऑफलोडिंग की खोज की है, लेकिन वे अक्सर I/O जाम के कारण दक्षता में कमी का सामना करते हैं। संसाधन-सीमित उपकरणों पर कम विलंबता वाले LLMs अनुमान को प्राप्त करने के लिए, हम HeteGen प्रस्तुत करते हैं, जो CPUs और GPUs का उपयोग करते हुए विषम समानांतर कम्प्यूटिंग के लिए एक सिद्धांत आधारित रूपरेखा प्रदान करता है। इस रूपरेखा के आधार पर, HeteGen LLMs के लिए विषम समानांतर कम्प्यूटिंग और असममित ओवरलैप का उपयोग करता है ताकि I/O जाम को कम किया जा सके। हमारे प्रयोगों ने अनुमान गति में महत्वपूर्ण सुधार दिखाया है, जो अत्याधुनिक तरीकों से अधिकतम 317% से अधिक बेहतर है।

HeteGen: रिसोर्स-सीमित उपकरणों पर बड़े भाषा मॉडल के लिए विषम समानांतर अनुमान

Key Points

Abstract

Cite This Study