August 28, 2024Open Access

जीरो-शॉट वॉइस क्लोनिंग के लिए मल्टी-मोडल एद्वर्सेरियल ट्रेनिंग

Key Points

Key points are not available for this paper at this time.

Abstract

एक टेक्स्ट-टू-स्पीच (TTS) मॉडल जो टेक्स्ट दिए जाने पर भाषण को पुनर्निर्मित करने के लिए प्रशिक्षित किया गया है, आमतौर पर डेटासेट की औसत विशेषताओं के करीब भविष्यवाणियों की ओर झुकता है, जिससे वह मानव भाषण को स्वाभाविक रूप से सुनाने वाले भिन्नताओं का मॉडल बनाने में विफल रहता है। यह समस्या जीरो-शॉट वॉइस क्लोनिंग के लिए बढ़ जाती है, जो एक कार्य है जिसके लिए बोलने के शैलियों में उच्च भिन्नता के साथ प्रशिक्षण डेटा की आवश्यकता होती है। हम जनरेटिव एडवर्सेरियल नेटवर्क्स (GAN) का उपयोग करने वाले हालिया कार्यों पर निर्माण करते हैं, जिसमें एक ट्रांसफार्मर एनकोडर-डिकोडर आर्किटेक्चर का प्रस्ताव दिया गया है जो वास्तविक और उत्पन्न भाषण विशेषताओं के बीच शर्तात्मक रूप से भेद करता है। भेदभावक को एक प्रशिक्षण पाइपलाइन में उपयोग किया जाता है जो TTS मॉडल की ध्वनिक और प्रविधिक विशेषताओं दोनों में सुधार करता है। हम अपनी नई एद्वर्सेरियल प्रशिक्षण तकनीक को FastSpeech2 ध्वनिक मॉडल पर लागू करके और जीरो-शॉट वॉइस क्लोनिंग के कार्य के लिए Libriheavy, एक बड़े मल्टी-स्पीकर डेटासेट पर प्रशिक्षित करके प्रस्तुत करते हैं। हमारा मॉडल भाषण गुणवत्ता और वक्ता समानता के मामले में आधार रेखा पर सुधार प्राप्त करता है। हमारे सिस्टम के ऑडियो उदाहरण ऑनलाइन उपलब्ध हैं।

जीरो-शॉट वॉइस क्लोनिंग के लिए मल्टी-मोडल एद्वर्सेरियल ट्रेनिंग

Key Points

Abstract

Cite This Study