July 31, 2024Open Access

في مشكلة اختيار نموذج تحويل النص إلى كلام لتوليد بيانات صناعية في التعرف على الكلام التلقائي

Key Points

Key points are not available for this paper at this time.

Abstract

أدى التطور السريع في نظم تحويل النص إلى كلام العصبية إلى تمكين استخدامها في مجالات أخرى من معالجة اللغة الطبيعية مثل التعرف التلقائي على الكلام أو ترجمة اللغة المنطوقة. نظرًا لوجود عدد كبير من هياكل TTS المختلفة وتوسعاتها، فإن اختيار أي من نظم TTS لاستخدامها في إنشاء بيانات صناعية ليس مهمة سهلة. نستخدم مقارنة بين خمسة هياكل مختلفة لفك تشفير TTS في نطاق توليد البيانات الصناعية لإظهار التأثير على تدريب التعرف على الكلام القائم على CTC. نقارن نتائج التعرف بمقاييس قابلة للحساب مثل NISQA MOS والوضوح، ونجد أنه لا توجد علاقات واضحة مع أداء ASR. كما نلاحظ أن فك التشفير الارتدادي التلقائي يؤدي أداءً أفضل من فك التشفير غير الارتدادي، ونقترح نهجًا لت quantification قدرات التعميم لنظم TTS.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper