June 28, 2024Open Access

एज कंप्यूटिंग वातावरण में विलंबता-अनुकूलित भाषा मॉडल अनुमान

Key Points

एज उपकरणों पर तैनात भाषा मॉडलों के लिए महत्वपूर्ण विलंबता कमी देखी गई, जिसने वास्तविक समय की प्रसंस्करण क्षमताओं को बढ़ाया।
पारंपरिक तरीकों की तुलना में विलंबता 30% से अधिक कम हुई, जिससे स्वायत्त ड्राइविंग जैसे अनुप्रयोगों के लिए यह संभव हो गया।
प्रायोगिक विश्लेषण में समग्र मॉडल संपीड़न तकनीकों को शामिल किया गया, जिसमें एज कैशिंग और कार्य आवंटन शामिल हैं, ताकि एज उपकरणों पर प्रदर्शन का अनुकूलन किया जा सके। यह अनुकूलन स्मार्ट स्वास्थ्य देखभाल और औद्योगिक स्वचालन में विलंबता-संवेदनशील अनुप्रयोगों की और अधिक प्रभावी तैनाती की अनुमति दे सकता है।

Abstract

सारांश: एज कंप्यूटिंग वातावरण में बड़े भाषा मॉडल (LLMs) को तैनात करने के लिए विलंबता अनुकूलन अत्यंत महत्वपूर्ण है, जहाँ स्वायत्त ड्राइविंग, स्मार्ट स्वास्थ्य सेवा, और औद्योगिक स्वचालन जैसी अनुप्रयोगों के लिए वास्तविक समय प्रसंस्करण की आवश्यकता होती है। यह पत्र एज उपकरणों पर भाषा मॉडलों के लिए अनुमान विलंबता को कम करने के लिए एक व्यापक दृष्टिकोण प्रस्तुत करता है। हम एज कैशिंग, मॉडल विभाजन, कार्य आवंटन, और हल्के मॉडल तैनाती सहित विभिन्न मॉडल संपीड़न तकनीकों की खोज करते हैं, साथ ही उन्नत कंटेनरीकरण और ऑर्केस्ट्रेशन रणनीतियों के साथ। हमारी पद्धति एक समेकित एज कंप्यूटिंग प्लेटफ़ॉर्म शामिल करती है जो एंड-टू-एंड विलंबता को कम करने के लिए डेटा प्लेसमेंट और फ़ंक्शन ऑर्केस्ट्रेशन को गतिशील रूप से अनुकूलित करता है। प्रायोगिक परिणाम पारंपरिक तरीकों की तुलना में महत्वपूर्ण विलंबता कमी और कुशल संसाधन उपयोग प्रदर्शित करते हैं। ये निष्कर्ष विलंबता-संवेदनशील अनुप्रयोगों का समर्थन करने के लिए अनुकूलित LLM अनुमान का लाभ उठाकर एज कंप्यूटिंग की संभावनाओं को रेखांकित करते हैं।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper