تقدمت تقنية تحويل النص إلى كلام (TTS) بدون تدريب سابق مؤخرًا بشكل ملحوظ، مما يمكّن النماذج من توليد كلام من النص باستخدام نوافذ نصية قصيرة وسياق محدود. تعمل هذه النوافذ كنماذج صوتية، مما يسمح للنموذج بمحاكاة هوية المتحدث، والإيقاع، وغيرها من الصفات دون الحاجة إلى بيانات موسعة عن المتحدث. على الرغم من أن المناهج الحديثة التي تشمل نماذج اللغة، والانتشار، ومطابقة التدفق أثبتت فعاليتها في تحويل النص إلى كلام بدون تدريب سابق، إلا أنها لا تزال تواجه تحديات مثل التكامل غير الموثوق الناتج عن تكرار الرموز أو نقل المحتوى غير المتوقع، بالإضافة إلى بطء الاستدلال وعبء الحوسبة الكبير. علاوة على ذلك، فإن التنوع الزمني - الذي يعتبر حاسمًا لتعزيز طبيعة الكلام المُولد - لا يزال مدروسًا بشكل محدود. للتغلب على هذه التحديات، نقترح فليميد-تي تي إس، وهو إطار عمل جديد لتحويل النص إلى كلام بدون تدريب سابق يركز على انخفاض تكاليف الحوسبة، وانخفاض زمن الانتظار، وارتفاع دقة الكلام، بالإضافة إلى تنوع زمني غني. لتحقيق ذلك، قمنا بإعادة صياغة نموذج تدريب مطابقة التدفق ودمج تمثيلات متقطعة ومستدامة تت correspond مع صفات مختلفة للكلام. تظهر النتائج التجريبية أن فليميد-تي تي إس يتفوق على النماذج الرائجة من حيث الفهم، والطبيعة، وتشابه المتحدث، والحفاظ على الخصائص الصوتية، والإيقاع الديناميكي. ومن الجدير بالذكر أن فليميد-تي تي إس حقق أدنى معدل للأخطاء في الكلمات يبلغ 4% مقارنة بالنماذج القياسية لتحويل النص إلى كلام بدون تدريب سابق، مع الحفاظ على انخفاض زمن الانتظار في الاستدلال وارتفاع دقة في الكلام المُولد. الكود وعينات الصوت متاحة على صفحة العرض الخاصة بنا https://flamed-tts.github.io.
دراسة هويينغ- نجوين وآخرون (يوم الجمعة) تناولت هذا السؤال.