March 18, 2024Open Access

पंचन प्रशिक्षण एंबेडिंग संरेखण नामांकन और रनटाइम स्पीकर पहचान मॉडलों को अलग करने के लिए

Key Points

Key points are not available for this paper at this time.

Abstract

स्वचालित स्पीकर पहचान (SID) एक व्यापक स्पीच- सक्षम सेवाओं के व्यक्तिगतकरण के लिए एक महत्वपूर्ण कदम है। विशिष्ट SID सिस्टम एक सममित नामांकन-प्रमाणन ढांचे का उपयोग करते हैं जिसमें एक ही मॉडल का उपयोग किया जाता है ताकि नामांकन व्याख्यानों से निकाले गए वॉयस प्रोफाइल के लिए ऑफलाइन और रनटाइम व्याख्यानों से ऑनलाइन एंबेडिंग प्राप्त की जा सके। नामांकन और रनटाइम की विभिन्न परिस्थितियों के कारण, जैसे विभिन्न गणना और विलंबता सीमाएँ, कई अनुप्रयोगों को ऐसे असममित नामांकन-प्रमाणन ढांचे से लाभ होगा जो नामांकन और रनटाइम एंबेडिंग उत्पादन के लिए विभिन्न मॉडलों का उपयोग करता है। इस असममित SID का समर्थन करने के लिए जहाँ इन दो मॉडलों में से प्रत्येक को स्वतंत्र रूप से अपडेट किया जा सकता है, हम दो स्वतंत्र मॉडलों से एंबेडिंग को साझा स्पीकर एंबेडिंग स्पेस में मैप करने के लिए एक हल्का न्यूरल नेटवर्क उपयोग करने का प्रस्ताव करते हैं। हमारे परिणाम दिखाते हैं कि यह दृष्टिकोण साझा स्पीकर लॉजिट स्पेस में कोसाइन स्कोरिंग की तुलना में महत्वपूर्ण रूप से बेहतर प्रदर्शन करता है उन मॉडलों के लिए जिन्हें बड़ी डेटासेट्स पर कई स्पीकर पहचान के साथ प्रतिकर्षण हानि के साथ प्रशिक्षित किया गया था। यह प्रस्तावित न्यूरल एंबेडिंग स्पीकर स्पेस संरेखण (NESSA) केवल एक मॉडल के असममित अपडेट के साथ दोनों मॉडलों को अपडेट करने द्वारा प्राप्त प्रदर्शन लाभ का कम से कम 60% प्रदान करता है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper