December 29, 2017Open Access

CAPIO 2017 वार्तालापीय भाषण पहचान प्रणाली

Key Points

Key points are not available for this paper at this time.

Abstract

इस पत्र में हम दिखाते हैं कि हम उद्योग मानक NIST 2000 Hub5 अंग्रेजी मूल्यांकन सेट पर अत्याधुनिक प्रदर्शन कैसे प्राप्त करने में सफल रहे। हम गहराई से जुड़े LSTM की खोज करते हैं, जो हाल ही में छवि वर्गीकरण कार्यों के लिए पेश किए गए गहराई से जुड़े परिवर्तनीय नेटवर्क से प्रेरित हैं। हम एक ध्वनिक मॉडल अनुकूलन योजना भी प्रस्तावित करते हैं जो एक बीज न्यूरल नेटवर्क ध्वनिक मॉडल और इसके अनुकूलित संस्करण के मापदंडों को सरलता से औसत करता है। इस विधि को CallHome प्रशिक्षण कॉर्पस के साथ लागू किया गया और व्यक्तिगत प्रणाली के प्रदर्शन में औसतन 6.1% (आपसी) सुधार हुआ, जबकि स्विचबोर्ड भाग पर कोई प्रदर्शन हानि नहीं हुई। RNN-LM पुनः स्कोरिंग और तीन अलग-अलग फोन सेट पर प्रशिक्षित 5 प्रणालियों के साथ लट्टिस संयोजन के साथ, 2017 की हमारी भाषण पहचान प्रणाली ने स्विचबोर्ड और कॉलहॉम पर क्रमशः 5.0% और 9.1% प्राप्त किया, जो अब तक की सबसे अच्छी शब्द त्रुटि दर है। IBM के अनुसार, उनकी नवीनतम काम में मानव और मशीन प्रतिलिपियों की तुलना करने के लिए, हमारी रिपोर्ट की गई स्विचबोर्ड शब्द त्रुटि दर को मानव समानता (5.1%) को पार करने के लिए माना जा सकता है।

AI से पूछें

Bookmark

View Full Paper