Key points are not available for this paper at this time.
يهدف توليد الكلام المعبر إلى إنتاج كلام يعكس مجموعة واسعة من الميزات اللغوية الموازية، بما في ذلك العاطفة والت articulation، على الرغم من أن الأبحاث الحالية تركز بشكل أساسي على الجوانب العاطفية مقارنة بالميزات الحركية الدقيقة التي يتقنها ممثلو الصوت المحترفون. مستلهمين من هذا، نستكشف توليد الكلام المعبر من خلال عدسة علم الأصوات الحركية. على وجه التحديد، نحدد إطار عمل بثلاثة أبعاد: التوتر، والضغط، والرنين (GTR)، لتوجيه التوليد على مستوى إنتاج الصوت. مع هذا الإطار، قمنا بتسجيل مجموعة بيانات صوتية عالية الجودة تُدعى GTR-Voice، تحتوي على 20 جملة صينية articulated بواسطة ممثل صوت محترف عبر 125 توليفة GTR متميزة. نتحقق من الإطار وبيانات GTR من خلال التصنيف التلقائي واختبارات الاستماع، ونظهر إمكانية التحكم الدقيقة على طول أبعاد GTR على نموذجين من نماذج TTS المعبرة المعدلة. نحن نفتح مصدر مجموعة البيانات ونماذج TTS.
درس Li et al. (Sat ،) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: