April 9, 2020

Wavegan المتوازي: نموذج سريع لتوليد الموجات المعتمدة على الشبكات التنافسية التوليدية مع طيف متعدد الدقة

Key Points

Key points are not available for this paper at this time.

Abstract

نقترح WaveGAN المتوازي، وهو طريقة لتوليد الموجات سريعة ودون تقطير وذات بصمة صغيرة تستخدم شبكة تنافسية توليدية. في الطريقة المقترحة، يتم تدريب WaveNet غير التلقائي من خلال تحسين مشترك لطيف متعدد الدقة ودوال خسارة تنافسية، مما يمكن من التقاط توزيع الوقت والتردد لموجة الكلام الواقعية بشكل فعال. حيث أن طريقتنا لا تتطلب تقطير الكثافة المستخدم في الإطار التقليدي للمعلم والطالب، يمكن تدريب النموذج بالكامل بسهولة. علاوة على ذلك، نموذجنا قادر على توليد كلام عالي الدقة حتى مع هيكله المدمج. على وجه الخصوص، يحتوي WaveGAN المتوازي المقترح على 1.44 مليون معلمة ويمكنه توليد موجة كلام بتردد 24 كيلو هرتز بسرعة 28.68 مرة أسرع من الوقت الحقيقي في بيئة GPU واحدة. نتائج اختبار الاستماع الإدراكي تؤكد أن طريقتنا المقترحة تحقق متوسط تقييم للرأي يبلغ 4.16 ضمن إطار العمل القائم على Transformer لتحويل النص إلى كلام، وهو ما يقارن بأفضل نظام Parallel WaveNet المعتمد على التقطير.

اسأل الذكاء الاصطناعي

Bookmark