July 2, 2021Open Access

ट्रांसफार्मर्स के लिए सीखा गया टोकन प्रूनिंग

Key Points

Key points are not available for this paper at this time.

Abstract

व्यवहार में ट्रांसफार्मर मॉडल तैनात करना चुनौतीपूर्ण है क्योंकि उनकी अनुमानित लागत इनपुट अनुक्रम की लंबाई के साथ चौगुनी होती है। इस समस्या को हल करने के लिए, हम एक नवीन सीखा गया टोकन प्रूनिंग (LTP) विधि प्रस्तुत करते हैं जो अनावश्यक टोकनों को अनुकूलित रूप से हटा देती है जब इनपुट अनुक्रम ट्रांसफार्मर परतों से गुजरता है। विशेष रूप से, LTP उन टोकनों को प्रून करती है जिनका ध्यान स्कोर एक थ्रेशहोल्ड मूल्य से नीचे होता है जो प्रत्येक परत के लिए प्रशिक्षण के दौरान सीखा जाता है। हमारी थ्रेशहोल्ड-आधारित विधि प्रून किए गए अनुक्रम की लंबाई को इनपुट अनुक्रम के आधार पर अनुकूलित रूप से बदलने की अनुमति देती है, और शीर्ष-k टोकन चयन जैसी एल्गोरिदम-वस्तुगत महंगी कार्यों से बचती है। हम GLUE कार्यों पर LTP के प्रदर्शन का व्यापक परीक्षण करते हैं और दिखाते हैं कि हमारी विधि पूर्ववर्ती अत्याधुनिक टोकन प्रूनिंग विधियों की तुलना में ~2.5% अधिक सटीकता के साथ बेहतर प्रदर्शन करती है, जबकि FLOPs की मात्रा समान रहती है। विशेष रूप से, LTP 1% से कम सटीकता में गिरावट के साथ लगभग 2.1x FLOPs कमी प्राप्त करती है, जो Intel Haswell CPUs और NVIDIA V100 GPUs पर क्रमशः 1.9x और 2.0x थ्रूपुट सुधार का परिणाम देती है। इसके अलावा, हम यह प्रदर्शित करते हैं कि LTP पिछले तरीकों की तुलना में इनपुट वाक्य की लंबाई में भिन्नताओं के प्रति अधिक मजबूत है। हमारा कोड PyTorch में विकसित किया गया है और इसे ओपन-सोर्स किया गया है।

Bookmark

View Full Paper

Bookmark

View Full Paper

ट्रांसफार्मर्स के लिए सीखा गया टोकन प्रूनिंग

Key Points

Abstract

Cite This Study