Key points are not available for this paper at this time.
हाल के समय में, बड़े भाषा मॉडल्स (LLMs) के उदय के कारण मॉडल का आकार दिन-ब-दिन बढ़ता जा रहा है, जिससे कम संसाधन वाले उपकरणों पर अनुमान लगाने में चुनौतियाँ उत्पन्न होती हैं। पहले के तरीकों ने कम मेमोरी वाले अनुमान को सक्षम बनाने के लिए ऑफलोडिंग की खोज की है, लेकिन वे अक्सर I/O जाम के कारण दक्षता में कमी का सामना करते हैं। संसाधन-सीमित उपकरणों पर कम विलंबता वाले LLMs अनुमान को प्राप्त करने के लिए, हम HeteGen प्रस्तुत करते हैं, जो CPUs और GPUs का उपयोग करते हुए विषम समानांतर कम्प्यूटिंग के लिए एक सिद्धांत आधारित रूपरेखा प्रदान करता है। इस रूपरेखा के आधार पर, HeteGen LLMs के लिए विषम समानांतर कम्प्यूटिंग और असममित ओवरलैप का उपयोग करता है ताकि I/O जाम को कम किया जा सके। हमारे प्रयोगों ने अनुमान गति में महत्वपूर्ण सुधार दिखाया है, जो अत्याधुनिक तरीकों से अधिकतम 317% से अधिक बेहतर है।
झाओ एट अल. (Sat,) ने इस प्रश्न का अध्ययन किया।