March 18, 2024Open Access

Multi-CMGAN+/+: बोलने की गुणवत्ता मीट्रिक भविष्यवाणी के लिए बहु-उद्देश्यीय लाभ उठाना भाषण संवर्धन

Key Points

Key points are not available for this paper at this time.

Abstract

स्त्रीण नेटवर्क आधारित दृष्टिकोण भाषण संवर्धन के लिए विशेष रूप से शक्तिशाली साबित हुए हैं, जो डेटा-संचालित दृष्टिकोण का लाभ उठाते हुए अन्य दृष्टिकोणों की तुलना में महत्वपूर्ण प्रदर्शन लाभ प्राप्त कर सकते हैं। ऐसे दृष्टिकोण कृत्रिम रूप से निर्मित लेबल किए गए प्रशिक्षण डेटा पर निर्भर करते हैं ताकि तंत्रिका मॉडल को हस्तक्षेप करने वाले हानि कार्यों का उपयोग करते हुए प्रशिक्षित किया जा सके, जो मॉडल के आउटपुट की तुलना स्वच्छ संदर्भ भाषण से करते हैं। वास्तविक-विश्व ऑडियो को संवर्धित करते समय ऐसे सिस्टम का प्रदर्शन अक्सर अनुकरणीय परीक्षण डेटा पर उनके प्रदर्शन की तुलना में प्रभावित होता है। इस काम में, एक गैर-हस्तक्षेप बहु-मीट्रिक भविष्यवाणी दृष्टिकोण प्रस्तुत किया गया है, जहाँ एक मॉडल कृत्रिम लेबल किए गए डेटा पर एक प्रतिकूल रूप से प्रशिक्षित मीट्रिक भविष्यवाणी तंत्रिका नेटवर्क के निष्कर्षों का उपयोग करके प्रशिक्षित किया गया है। प्रस्तावित दृष्टिकोण हालिया CHiME-7 चुनौती अचूक डोमेन अनुकूली भाषण संवर्धन (UDASE) कार्य मूल्यांकन सेट पर अत्याधुनिक प्रणालियों की तुलना में बेहतर प्रदर्शन दिखाता है। अनुक्रमणिका शब्द: भाषण संवर्धन, मॉडल सामान्यीकरण, जनरेटिव प्रतिकूल नेटवर्क, कनफार्मर, मीट्रिक भविष्यवाणी

Multi-CMGAN+/+: बोलने की गुणवत्ता मीट्रिक भविष्यवाणी के लिए बहु-उद्देश्यीय लाभ उठाना भाषण संवर्धन

Key Points

Abstract

Cite This Study

Also Consider

Also Consider