हाल के शून्य-शॉट शैली-स्थानांतरण भाषण संश्लेषण विधियों ने आशाजनक परिणाम दिखाए हैं और अप्रत्याशित बोलने की शैलियों के लिए अनुकूलन पर ध्यान केंद्रित किया है। जबकि अधिकांश अत्याधुनिक विधियाँ नई बोलने वालों और शैलियों को बड़े मॉडल या कॉर्पोरा का उपयोग करके सामान्यीकृत करती हैं, छोटे मॉडल के साथ समान सामान्यीकरण प्राप्त करना एक खुली चुनौती बनी हुई है। हम एक शून्य-शॉट विधि का प्रस्तावित करते हैं जो छोटे GenerSpeech बैकबोन और एक बारीक-नाजुक शैली एन्कोडर का उपयोग करती है। वक्ताओं, वैश्विक/बारीक शैली और सामग्री एम्बेडिंग को अलग करने के लिए, हम एक आपसी जानकारी न्यूनतमता हानि पेश करते हैं। शैली को वक्ता से अलग करने और शैली एम्बेडिंग विविधता को बढ़ाने के लिए, हम अधिकतम-औसत-भिन्नता-निर्देशित चक्र स्थिरता हानि पेश करते हैं। प्रयोगात्मक परिणाम बताते हैं कि प्रस्तावित विधि बुनियादी शून्य-शॉट शैली-स्थानांतरण विधियों (GenerSpeech, YourTTS, VALL-E-X) की तुलना में 31% की सापेक्ष औसत शैली प्राथमिकता में सुधार और VCTK पर 3.64 की प्रोसोदी समानता औसत राय स्कोर प्रदान करती है।
Eren et al. (Sun,) ने इस प्रश्न का अध्ययन किया।