What question did this study set out to answer?

उद्देश्य यह है कि छोटे मॉडलों का उपयोग करके गुणवत्ता से समझौता किए बिना टेक्स्ट-टू-स्पीच सिस्टम में शून्य-शॉट शैली स्थानांतरण को बढ़ाएं।

March 13, 2026Open Access

शून्य-शॉट शैली स्थानांतरण टेक्स्ट-टू-स्पीच को बारीक-नाजुक शैली मॉडलिंग द्वारा सुधारना

Key Points

उद्देश्य यह है कि छोटे मॉडलों का उपयोग करके गुणवत्ता से समझौता किए बिना टेक्स्ट-टू-स्पीच सिस्टम में शून्य-शॉट शैली स्थानांतरण को बढ़ाएं।
GenerSpeech बैकबोन और बारीक-नाजुक शैली एन्कोडर का लाभ उठाकर एक शून्य-शॉट विधि का प्रस्तावित किया।
वक्ता पहचानों और शैलियों को अलग करने के लिए एक आपसी जानकारी न्यूनतमता हानि को लागू किया।
शैली एम्बेडिंग विविधता को बेहतर बनाने के लिए अधिकतम-औसत-भिन्नता-निर्देशित चक्र स्थिरता हानि को लागू किया।
बुनियादी विधियों की तुलना में 31% की सापेक्ष औसत शैली प्राथमिकता में सुधार प्राप्त किया।
VCTK डेटासेट पर 3.64 का प्रोसोदी समानता औसत राय स्कोर प्राप्त किया।

Abstract

हाल के शून्य-शॉट शैली-स्थानांतरण भाषण संश्लेषण विधियों ने आशाजनक परिणाम दिखाए हैं और अप्रत्याशित बोलने की शैलियों के लिए अनुकूलन पर ध्यान केंद्रित किया है। जबकि अधिकांश अत्याधुनिक विधियाँ नई बोलने वालों और शैलियों को बड़े मॉडल या कॉर्पोरा का उपयोग करके सामान्यीकृत करती हैं, छोटे मॉडल के साथ समान सामान्यीकरण प्राप्त करना एक खुली चुनौती बनी हुई है। हम एक शून्य-शॉट विधि का प्रस्तावित करते हैं जो छोटे GenerSpeech बैकबोन और एक बारीक-नाजुक शैली एन्कोडर का उपयोग करती है। वक्ताओं, वैश्विक/बारीक शैली और सामग्री एम्बेडिंग को अलग करने के लिए, हम एक आपसी जानकारी न्यूनतमता हानि पेश करते हैं। शैली को वक्ता से अलग करने और शैली एम्बेडिंग विविधता को बढ़ाने के लिए, हम अधिकतम-औसत-भिन्नता-निर्देशित चक्र स्थिरता हानि पेश करते हैं। प्रयोगात्मक परिणाम बताते हैं कि प्रस्तावित विधि बुनियादी शून्य-शॉट शैली-स्थानांतरण विधियों (GenerSpeech, YourTTS, VALL-E-X) की तुलना में 31% की सापेक्ष औसत शैली प्राथमिकता में सुधार और VCTK पर 3.64 की प्रोसोदी समानता औसत राय स्कोर प्रदान करती है।

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Eren et al. (Sun,) ने इस प्रश्न का अध्ययन किया।

synapsesocial.com/papers/69b3acd302a1e69014ccecec https://doi.org/https://doi.org/10.1121/10.0042974

Bookmark

View Full Paper