Key points are not available for this paper at this time.
व्यवहार में ट्रांसफार्मर मॉडल तैनात करना चुनौतीपूर्ण है क्योंकि उनकी अनुमानित लागत इनपुट अनुक्रम की लंबाई के साथ चौगुनी होती है। इस समस्या को हल करने के लिए, हम एक नवीन सीखा गया टोकन प्रूनिंग (LTP) विधि प्रस्तुत करते हैं जो अनावश्यक टोकनों को अनुकूलित रूप से हटा देती है जब इनपुट अनुक्रम ट्रांसफार्मर परतों से गुजरता है। विशेष रूप से, LTP उन टोकनों को प्रून करती है जिनका ध्यान स्कोर एक थ्रेशहोल्ड मूल्य से नीचे होता है जो प्रत्येक परत के लिए प्रशिक्षण के दौरान सीखा जाता है। हमारी थ्रेशहोल्ड-आधारित विधि प्रून किए गए अनुक्रम की लंबाई को इनपुट अनुक्रम के आधार पर अनुकूलित रूप से बदलने की अनुमति देती है, और शीर्ष-k टोकन चयन जैसी एल्गोरिदम-वस्तुगत महंगी कार्यों से बचती है। हम GLUE कार्यों पर LTP के प्रदर्शन का व्यापक परीक्षण करते हैं और दिखाते हैं कि हमारी विधि पूर्ववर्ती अत्याधुनिक टोकन प्रूनिंग विधियों की तुलना में ~2.5% अधिक सटीकता के साथ बेहतर प्रदर्शन करती है, जबकि FLOPs की मात्रा समान रहती है। विशेष रूप से, LTP 1% से कम सटीकता में गिरावट के साथ लगभग 2.1x FLOPs कमी प्राप्त करती है, जो Intel Haswell CPUs और NVIDIA V100 GPUs पर क्रमशः 1.9x और 2.0x थ्रूपुट सुधार का परिणाम देती है। इसके अलावा, हम यह प्रदर्शित करते हैं कि LTP पिछले तरीकों की तुलना में इनपुट वाक्य की लंबाई में भिन्नताओं के प्रति अधिक मजबूत है। हमारा कोड PyTorch में विकसित किया गया है और इसे ओपन-सोर्स किया गया है।
किम एट अल। (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।