सारांश: एज कंप्यूटिंग वातावरण में बड़े भाषा मॉडल (LLMs) को तैनात करने के लिए विलंबता अनुकूलन अत्यंत महत्वपूर्ण है, जहाँ स्वायत्त ड्राइविंग, स्मार्ट स्वास्थ्य सेवा, और औद्योगिक स्वचालन जैसी अनुप्रयोगों के लिए वास्तविक समय प्रसंस्करण की आवश्यकता होती है। यह पत्र एज उपकरणों पर भाषा मॉडलों के लिए अनुमान विलंबता को कम करने के लिए एक व्यापक दृष्टिकोण प्रस्तुत करता है। हम एज कैशिंग, मॉडल विभाजन, कार्य आवंटन, और हल्के मॉडल तैनाती सहित विभिन्न मॉडल संपीड़न तकनीकों की खोज करते हैं, साथ ही उन्नत कंटेनरीकरण और ऑर्केस्ट्रेशन रणनीतियों के साथ। हमारी पद्धति एक समेकित एज कंप्यूटिंग प्लेटफ़ॉर्म शामिल करती है जो एंड-टू-एंड विलंबता को कम करने के लिए डेटा प्लेसमेंट और फ़ंक्शन ऑर्केस्ट्रेशन को गतिशील रूप से अनुकूलित करता है। प्रायोगिक परिणाम पारंपरिक तरीकों की तुलना में महत्वपूर्ण विलंबता कमी और कुशल संसाधन उपयोग प्रदर्शित करते हैं। ये निष्कर्ष विलंबता-संवेदनशील अनुप्रयोगों का समर्थन करने के लिए अनुकूलित LLM अनुमान का लाभ उठाकर एज कंप्यूटिंग की संभावनाओं को रेखांकित करते हैं।
केतन टोटलानी (शुक्रवार) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: