Key points are not available for this paper at this time.
يمكن أن تعاني الأساليب المعتمدة على التعلم العميق في تحسين الكلام (SE) من تدهور الأداء بسبب عدم التوافق بين بيئات التدريب والاختبار. الحالة الواقعية هي أن نموذج SE المدرب على بيانات صوتية موازية تحتوي على ضجيج ونقاء من بيئة واحدة، وهي المجال المصدر، قد يفشل في الأداء بشكل كافٍ في بيئة أخرى، وهي المجال المستهدف (الجديد) مع ظروف صوتية أو ضجيج غير مرئية. على الرغم من أنه يمكننا تحسين أداء المجال المستهدف من خلال الاستفادة من البيانات المزدوجة في ذلك المجال، فإن البيانات المتداخلة أسهل جمعًا في الواقع. لذلك، من المفيد دراسة تقنيات التكيف غير الخاضعة للإشراف في SE التي تستخدم فقط البيانات الضوضائية من المجال المستهدف، إلى جانب الاستفادة من المعرفة المتاحة من بيانات المجال المصدر المزدوجة، لتحسين SE في المجال الجديد. في هذا البحث، نقدم إطار عمل جديد للتكيف في SE من خلال استغلال نماذج الكلام المعتمدة على التعلم الذاتي (SSL). يتم تدريب نماذج SSL مسبقًا على كميات كبيرة من بيانات الكلام الخام لاستخراج تمثيلات غنية بالمعلومات الصوتية والفونولوجية. نستكشف إمكانات استغلال تمثيلات SSL للتكيف الفعال مع SE في المجالات الجديدة. على حد علمنا، هذه هي المحاولة الأولى لتطبيق نماذج SSL للتكيف مع المجال في SE.
درس لي وآخرون (Mon,) هذا السؤال.