November 8, 2025Open Access

فليميد-تي تي إس: نماذج بدون انتباه مطابقة للتدفق لتوليد فعال وإيقاع ديناميكي لنص إلى كلام بدون تدريب سابق

Key Points

انخفاض زمن الانتظار يؤدي إلى تحسين الإيقاع الديناميكي في الكلام المُولد، مما يعزز قابلية الاستخدام.
تظهر التقييمات التجريبية تحسنًا ملحوظًا في الإيقاع والدقة مقارنة بالنماذج الأخرى.
تم استخدام مطابقة التدفق ونماذج اللغة لإعادة صياغة التدريب في تحويل النص إلى كلام بدون تدريب سابق.
قد تمكّن هذه الابتكارات تطبيقات أوسع لتكنولوجيا تحويل النص إلى كلام في السيناريوهات الوقت الحقيقي.

Abstract

تقدمت تقنية تحويل النص إلى كلام (TTS) بدون تدريب سابق مؤخرًا بشكل ملحوظ، مما يمكّن النماذج من توليد كلام من النص باستخدام نوافذ نصية قصيرة وسياق محدود. تعمل هذه النوافذ كنماذج صوتية، مما يسمح للنموذج بمحاكاة هوية المتحدث، والإيقاع، وغيرها من الصفات دون الحاجة إلى بيانات موسعة عن المتحدث. على الرغم من أن المناهج الحديثة التي تشمل نماذج اللغة، والانتشار، ومطابقة التدفق أثبتت فعاليتها في تحويل النص إلى كلام بدون تدريب سابق، إلا أنها لا تزال تواجه تحديات مثل التكامل غير الموثوق الناتج عن تكرار الرموز أو نقل المحتوى غير المتوقع، بالإضافة إلى بطء الاستدلال وعبء الحوسبة الكبير. علاوة على ذلك، فإن التنوع الزمني - الذي يعتبر حاسمًا لتعزيز طبيعة الكلام المُولد - لا يزال مدروسًا بشكل محدود. للتغلب على هذه التحديات، نقترح فليميد-تي تي إس، وهو إطار عمل جديد لتحويل النص إلى كلام بدون تدريب سابق يركز على انخفاض تكاليف الحوسبة، وانخفاض زمن الانتظار، وارتفاع دقة الكلام، بالإضافة إلى تنوع زمني غني. لتحقيق ذلك، قمنا بإعادة صياغة نموذج تدريب مطابقة التدفق ودمج تمثيلات متقطعة ومستدامة تت correspond مع صفات مختلفة للكلام. تظهر النتائج التجريبية أن فليميد-تي تي إس يتفوق على النماذج الرائجة من حيث الفهم، والطبيعة، وتشابه المتحدث، والحفاظ على الخصائص الصوتية، والإيقاع الديناميكي. ومن الجدير بالذكر أن فليميد-تي تي إس حقق أدنى معدل للأخطاء في الكلمات يبلغ 4% مقارنة بالنماذج القياسية لتحويل النص إلى كلام بدون تدريب سابق، مع الحفاظ على انخفاض زمن الانتظار في الاستدلال وارتفاع دقة في الكلام المُولد. الكود وعينات الصوت متاحة على صفحة العرض الخاصة بنا https://flamed-tts.github.io.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper