April 1, 2007

शोरगुल डेटा की मजबूत पहचान के लिए संयुक्त अनिश्चितता डिकोडिंग के साथ अनुकूली प्रशिक्षण

Key Points

Key points are not available for this paper at this time.

Abstract

स्वचालित भाषण मान्यता के लिए मानक शोर मुआवजा तकनीकें एक साफ प्रशिक्षित ध्वनिकी मॉडल का मान करती हैं। जिस डेटा को "साफ" माना जाता है, उसमें अभी भी विभिन्न वक्ता, अलग-अलग चैनल और भिन्न शोर स्थितियाँ हो सकती हैं। इसलिए, ऐसे डेटा को बहु-स्थितियों वाले बहु-शैली प्रशिक्षण के लिए अधिक यथार्थवादी ढंग से विचार करना उचित हो सकता है। यह पत्र दिखाता है कि बहु-शैली मॉडल VTS मुआवजे या संयुक्त अनिश्चितता डिकोडिंग से लाभान्वित होते हैं, जिससे प्रशिक्षण और परीक्षण के बीच असंगति कम होती है। एक EM-आधारित शोर अनुमान प्रक्रिया जो ML VTS या संयुक्त शोर मॉडल उत्पन्न करती है, का भी वर्णन किया गया है। वैकल्पिक रूप से, संयुक्त अनिश्चितता के साथ अनुकूली प्रशिक्षण डेटा से शोर को बाहर निकालने के कारकों को परिवर्तित करता है। अनिश्चितता परिवर्तन पूर्वाग्रह उन अवलोकनों का वजन कम कर देता है जहाँ SNR कम है। यह गुण विभिन्न SNR रेंज वाली डेटा के उपयोग की अनुमति देता है और कैननिकल मॉडल उत्पन्न करता है जो वास्तव में साफ भाषण का प्रतिनिधित्व करता है, जबकि बहु-शैली से प्रशिक्षित मॉडल को विभिन्न शोर स्थितियों से संबंधित सभी ध्वनिक विविधता का ध्यान रखना चाहिए। यह पत्र परिवर्तनों और कैननिकल मॉडल पैरामीटर का अनुमान लगाने के लिए फॉर्मूला सहित संयुक्त अनुकूली प्रशिक्षण प्रस्तुत करता है। संसाधन प्रबंधन और समाचार प्रसारण कॉर्पोरा पर प्रयोग किए गए हैं।

AI से पूछें

Bookmark

AI से पूछें

Bookmark

शोरगुल डेटा की मजबूत पहचान के लिए संयुक्त अनिश्चितता डिकोडिंग के साथ अनुकूली प्रशिक्षण

Key Points

Abstract

Cite This Study