January 1, 2023Open Access

NSE-CATNet: تعزيز الكلام العميق باستخدام شبكة المحولات التركيزية التلافيفية

Key Points

Key points are not available for this paper at this time.

Abstract

تعزيز الكلام (SE) هو جانب حاسم من تطبيقات معالجة الكلام المختلفة. تركز الأبحاث الحديثة في هذا المجال على تحديد طرق فعالة لالتقاط الاعتمادات السياقية طويلة الأمد لإشارات الكلام لتعزيز الأداء. أظهرت الشبكات التلافيفية العميقة (DCN) التي تستخدم الانتباه الذاتي ونموذج المحولات نتائج تنافسية في SE. يمكن لنماذج المحولات ذات الطبقات التلافيفية التقاط التسلسلات الزمنية القصيرة والطويلة الأمد من خلال الاستفادة من الانتباه الذاتي متعدد الرؤوس، مما يسمح للنموذج بالاهتمام بالتسلسل بالكامل. يقترح هذا البحث تعزيز الكلام العصبي (NSE) باستخدام مشفر-موحل تلافيفي (CED) ومحولات التركيز التلافيفية (CAT)، والتي تُدعى NSE-CATNet. لعمليات فعالة لتوزيع الوقت-التردد (T-F) لمكونات الطيف في إشارات الكلام، تم إدخال وحدة انتباه (T-F) في نموذج المحولات التلافيفية. تتيح هذه الوحدة للنموذج الاستفادة بشكل صريح من معلومات الموقع وإنشاء خريطة اهتمام ثنائية الأبعاد لتوزيع الكلام الزمني-الترددي. يتم تقييم أداء SE المقترح باستخدام مقاييس جودة الكلام ووضوحه الموضوعية على مجموعتي بيانات مختلفتين، مجموعة بيانات VoiceBank-DEMAND ومجموعة بيانات LibriSpeech. تشير النتائج التجريبية إلى أن SE المقترحة تفوقت على الأسس التنافسية من حيث أداء تعزيز الكلام عند -5dB و0dB و5dB. وهذا يشير إلى أن النموذج فعال في تحسين الجودة العامة بمقدار 0.704 مع VoiceBank-DEMAND و0.692 مع LibriSpeech. علاوة على ذلك، تم تحسين الوضوح مع VoiceBank-DEMAND وLibriSpeech بنسبة 11.325% و11.75% مقارنةً بإشارات الكلام المزعجة.

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper