Key points are not available for this paper at this time.
एक टेक्स्ट-टू-स्पीच (TTS) मॉडल जो टेक्स्ट दिए जाने पर भाषण को पुनर्निर्मित करने के लिए प्रशिक्षित किया गया है, आमतौर पर डेटासेट की औसत विशेषताओं के करीब भविष्यवाणियों की ओर झुकता है, जिससे वह मानव भाषण को स्वाभाविक रूप से सुनाने वाले भिन्नताओं का मॉडल बनाने में विफल रहता है। यह समस्या जीरो-शॉट वॉइस क्लोनिंग के लिए बढ़ जाती है, जो एक कार्य है जिसके लिए बोलने के शैलियों में उच्च भिन्नता के साथ प्रशिक्षण डेटा की आवश्यकता होती है। हम जनरेटिव एडवर्सेरियल नेटवर्क्स (GAN) का उपयोग करने वाले हालिया कार्यों पर निर्माण करते हैं, जिसमें एक ट्रांसफार्मर एनकोडर-डिकोडर आर्किटेक्चर का प्रस्ताव दिया गया है जो वास्तविक और उत्पन्न भाषण विशेषताओं के बीच शर्तात्मक रूप से भेद करता है। भेदभावक को एक प्रशिक्षण पाइपलाइन में उपयोग किया जाता है जो TTS मॉडल की ध्वनिक और प्रविधिक विशेषताओं दोनों में सुधार करता है। हम अपनी नई एद्वर्सेरियल प्रशिक्षण तकनीक को FastSpeech2 ध्वनिक मॉडल पर लागू करके और जीरो-शॉट वॉइस क्लोनिंग के कार्य के लिए Libriheavy, एक बड़े मल्टी-स्पीकर डेटासेट पर प्रशिक्षित करके प्रस्तुत करते हैं। हमारा मॉडल भाषण गुणवत्ता और वक्ता समानता के मामले में आधार रेखा पर सुधार प्राप्त करता है। हमारे सिस्टम के ऑडियो उदाहरण ऑनलाइन उपलब्ध हैं।
Janiczek और अन्य (बुध,) ने इस प्रश्न का अध्ययन किया।