Key points are not available for this paper at this time.
एंड-टू-एंड ऑटोमेटिक स्पीच रिकग्निशन (ASR) नए भाषाओं के लिए ASR सिस्टम विकसित करने का बोझ काफी कम कर सकता है, क्योंकि यह उच्चारण डिक्शनरी जैसी भाषाई जानकारी की आवश्यकता को समाप्त करता है। यह एक अवसर भी बनाता है, जिसे हम इस पेपर में पूरी तरह से उपयोग करते हैं, एक मोनोलिथिक बहु-भाषाई ASR सिस्टम बनाने के लिए जिसमें एक भाषा-स्वतंत्र न्यूरल नेटवर्क आर्किटेक्चर है। हम एक मॉडल प्रस्तुत करते हैं जो 10 विभिन्न भाषाओं में भाषण को पहचान सकता है, सीधे ग्राफ़ेम (कैरेक्टर/चंक किए गए कैरेक्टर) आधारित भाषण पहचान को प्रदर्शन करके। यह मॉडल हमारे हाइब्रिड अटेंशन/कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) आर्किटेक्चर पर आधारित है, जिसे पहले कई ASR बेंचमार्क में स्टेट-ऑफ-द-आर्ट प्रदर्शन प्राप्त करते हुए दिखाया गया है। यहाँ हम इसके आउटपुट प्रतीकों के सेट को बढ़ाते हैं ताकि सभी लक्ष्य भाषाओं में दिखाई देने वाले कैरेक्टर सेट्स का संघ शामिल हो सके। इनमें रोमन और सिरिलिक वर्णमाला, अरबी संख्या, सरलित चीनी, और जापानी कंजी/हिरागाना/कटाकाना वर्ण (कुल 5,500 वर्ण) शामिल हैं। यह एक ही बहु-भाषाई मॉडल के प्रशिक्षण की अनुमति देता है, जिसके पैरामीटर सभी भाषाओं में साझा होते हैं। मॉडल भाषा और भाषण को एक साथ पहचान सकता है, स्वचालित रूप से मान्यता प्राप्त पाठ को उचित कैरेक्टर सेट में प्रारूपित करता है। प्रयोग, जो Wall Street Journal (अंग्रेज़ी), कॉर्पस ऑफ स्पॉन्टेनियस जापानी, HKUST मंडारिन CTS, और Voxforge (जर्मन, स्पेनिश, फ्रेंच, इटालियन, डच, पुर्तगाली, रूसी) से सहेजे गए भाषण डेटाबेस का उपयोग करते हैं, भाषा-निर्भर एंड-टू-एंड ASR सिस्टमों की तुलना में तुलनीय/श्रेष्ठ प्रदर्शन को दर्शाते हैं।
वातानाबे et al. (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: