Key points are not available for this paper at this time.
इस पत्र में हम दिखाते हैं कि हम उद्योग मानक NIST 2000 Hub5 अंग्रेजी मूल्यांकन सेट पर अत्याधुनिक प्रदर्शन कैसे प्राप्त करने में सफल रहे। हम गहराई से जुड़े LSTM की खोज करते हैं, जो हाल ही में छवि वर्गीकरण कार्यों के लिए पेश किए गए गहराई से जुड़े परिवर्तनीय नेटवर्क से प्रेरित हैं। हम एक ध्वनिक मॉडल अनुकूलन योजना भी प्रस्तावित करते हैं जो एक बीज न्यूरल नेटवर्क ध्वनिक मॉडल और इसके अनुकूलित संस्करण के मापदंडों को सरलता से औसत करता है। इस विधि को CallHome प्रशिक्षण कॉर्पस के साथ लागू किया गया और व्यक्तिगत प्रणाली के प्रदर्शन में औसतन 6.1% (आपसी) सुधार हुआ, जबकि स्विचबोर्ड भाग पर कोई प्रदर्शन हानि नहीं हुई। RNN-LM पुनः स्कोरिंग और तीन अलग-अलग फोन सेट पर प्रशिक्षित 5 प्रणालियों के साथ लट्टिस संयोजन के साथ, 2017 की हमारी भाषण पहचान प्रणाली ने स्विचबोर्ड और कॉलहॉम पर क्रमशः 5.0% और 9.1% प्राप्त किया, जो अब तक की सबसे अच्छी शब्द त्रुटि दर है। IBM के अनुसार, उनकी नवीनतम काम में मानव और मशीन प्रतिलिपियों की तुलना करने के लिए, हमारी रिपोर्ट की गई स्विचबोर्ड शब्द त्रुटि दर को मानव समानता (5.1%) को पार करने के लिए माना जा सकता है।
हान एट अल। (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: