April 1, 2018

फार-फील्ड मल्टी-टॉकर स्पीच पहचान के लिए मल्टी-माइक्रोफोन न्यूरल स्पीच सेपरेशन

Key Points

Key points are not available for this paper at this time.

Abstract

यह पत्र कई माइक्रोफोनों का उपयोग करके फार-फील्ड स्पीच सेपरेशन के लिए एक न्यूरल नेटवर्क दृष्टिकोण का वर्णन करता है। हमारा प्रस्तावित दृष्टिकोण स्पीकर-स्वतंत्र है और यह इनपुट स्पीच मिश्रण में स्पीकरों की संख्या को अचेतन रूप से समझने का सीख सकता है। यह परम्यूटेशन इन्वेरिएंट ट्रेनिंग (PIT) ढांचे का उपयोग करके किया गया है, जिसे हाल ही में सिंगल-माइक्रोफोन स्पीच सेपरेशन के लिए प्रस्तावित किया गया था। इस पत्र में, PIT को प्रभावी ढंग से मल्टी-माइक्रोफोन इनपुट का लाभ उठाने के लिए बढ़ाया गया है। इसे बेहतर पहचान सटीकता के लिए बीमफॉर्मिंग के साथ भी जोड़ा गया है। प्रस्तावित दृष्टिकोण की प्रभावशीलता मल्टी-टॉकर स्पीच पहचान प्रयोगों द्वारा जांची गई है जो बड़ी मात्रा में प्रशिक्षण डेटा का उपयोग करती हैं और मिश्रण स्थितियों की एक श्रृंखला को शामिल करती हैं। हमारा मल्टी-माइक्रोफोन स्पीच सेपरेशन सिस्टम सिंगल-माइक्रोफोन PIT की तुलना में महत्वपूर्ण रूप से बेहतर प्रदर्शन करता है। प्रस्तावित दृष्टिकोण के कई पहलुओं को प्रयोगात्मक रूप से जांचा गया है।

AI से पूछें

Bookmark