April 8, 2024Open Access

अर्ध-निगरानी सीमा-जागरूक भाषा मॉडल प्री-प्रशिक्षण के साथ चीनी अनुक्रम लेबलिंग

Key Points

Key points are not available for this paper at this time.

Abstract

चीनी अनुक्रम लेबलिंग कार्य सटीक शब्द सीमा चिह्नन पर बहुत निर्भर करते हैं। हालाँकि वर्तमान पूर्व-प्रशिक्षित भाषा मॉडल (PLMs) ने इन कार्यों पर महत्वपूर्ण लाभ प्राप्त किए हैं, वे कभी-कभी मॉडलिंग प्रक्रिया में सीमा जानकारी को स्पष्ट रूप से नहीं शामिल करते। इसका अपवाद BABERT है, जो चीनी BERT के पूर्व-प्रशिक्षण उद्देश्यों में अनुप नियंत्रित सांख्यिकीय सीमा जानकारी को शामिल करता है। इस दृष्टिकोण पर निर्माण करते हुए, हम BABERT की अधिगम को बढ़ाने के लिए अनुशासित उच्च-गुणवत्ता वाली सीमा जानकारी का इनपुट देते हैं, जिससे एक अर्ध-निगरानी सीमा-जागरूक PLM विकसित होता है। PLMs की सीमाओं को कोड करने की क्षमता का आकलन करने के लिए, हम एक नई ``सीमा सूचना मैट्रिक'' पेश करते हैं जो सरल और प्रभावी है। यह मैट्रिक विभिन्न PLMs की तुलना करने की अनुमति देती है बिना कार्य-विशिष्ट फाइन-ट्यूनिंग के। चीनी अनुक्रम लेबलिंग डेटासेट पर प्रयोगात्मक परिणाम दिखाते हैं कि सुधारित BABERT संस्करण सामान्य संस्करण की तुलना में न केवल इन कार्यों पर बल्कि चीनी प्राकृतिक भाषा समझ संबंधी कार्यों की एक श्रृंखला में भी बेहतर प्रदर्शन करता है। इसके अतिरिक्त, हमारी प्रस्तावित मैट्रिक PLMs की सीमा जागरूकता का आकलन करने का एक सुविधाजनक और सटीक तरीका प्रदान करती है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper