December 1, 2017

भाषा-स्वतंत्र एंड-टू-एंड आर्किटेक्चर संयुक्त भाषा पहचान और भाषण मान्यता के लिए

Key Points

Key points are not available for this paper at this time.

Abstract

एंड-टू-एंड ऑटोमेटिक स्पीच रिकग्निशन (ASR) नए भाषाओं के लिए ASR सिस्टम विकसित करने का बोझ काफी कम कर सकता है, क्योंकि यह उच्चारण डिक्शनरी जैसी भाषाई जानकारी की आवश्यकता को समाप्त करता है। यह एक अवसर भी बनाता है, जिसे हम इस पेपर में पूरी तरह से उपयोग करते हैं, एक मोनोलिथिक बहु-भाषाई ASR सिस्टम बनाने के लिए जिसमें एक भाषा-स्वतंत्र न्यूरल नेटवर्क आर्किटेक्चर है। हम एक मॉडल प्रस्तुत करते हैं जो 10 विभिन्न भाषाओं में भाषण को पहचान सकता है, सीधे ग्राफ़ेम (कैरेक्टर/चंक किए गए कैरेक्टर) आधारित भाषण पहचान को प्रदर्शन करके। यह मॉडल हमारे हाइब्रिड अटेंशन/कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) आर्किटेक्चर पर आधारित है, जिसे पहले कई ASR बेंचमार्क में स्टेट-ऑफ-द-आर्ट प्रदर्शन प्राप्त करते हुए दिखाया गया है। यहाँ हम इसके आउटपुट प्रतीकों के सेट को बढ़ाते हैं ताकि सभी लक्ष्य भाषाओं में दिखाई देने वाले कैरेक्टर सेट्स का संघ शामिल हो सके। इनमें रोमन और सिरिलिक वर्णमाला, अरबी संख्या, सरलित चीनी, और जापानी कंजी/हिरागाना/कटाकाना वर्ण (कुल 5,500 वर्ण) शामिल हैं। यह एक ही बहु-भाषाई मॉडल के प्रशिक्षण की अनुमति देता है, जिसके पैरामीटर सभी भाषाओं में साझा होते हैं। मॉडल भाषा और भाषण को एक साथ पहचान सकता है, स्वचालित रूप से मान्यता प्राप्त पाठ को उचित कैरेक्टर सेट में प्रारूपित करता है। प्रयोग, जो Wall Street Journal (अंग्रेज़ी), कॉर्पस ऑफ स्पॉन्टेनियस जापानी, HKUST मंडारिन CTS, और Voxforge (जर्मन, स्पेनिश, फ्रेंच, इटालियन, डच, पुर्तगाली, रूसी) से सहेजे गए भाषण डेटाबेस का उपयोग करते हैं, भाषा-निर्भर एंड-टू-एंड ASR सिस्टमों की तुलना में तुलनीय/श्रेष्ठ प्रदर्शन को दर्शाते हैं।

AI से पूछें

Bookmark