Key points are not available for this paper at this time.
يهدف توليد الوجه المتحدث إلى تصنيع فيديو وجه مع تزامن دقيق للشفتين بالإضافة إلى انتقال سلس لحركة الوجه على مدار الفيديو بأكمله من خلال مقطع الكلام والصورة الوجهية المعطاة. تركز معظم الطرق الحالية بشكل رئيسي على إما فصل المعلومات في صورة واحدة أو تعلم المعلومات الزمنية بين الإطارات. ومع ذلك، لم يتم التعامل بشكل جيد مع التناسق بين المعلومات الصوتية والفيديو أثناء التوليف. في هذه الورقة، نقترح إطار عمل جديد لتوليد الوجه المتحدث بشكل عشوائي من خلال اكتشاف التناسق الصوتي-البصري عبر التقدير المقاس غير المتناظر للمعلومات (AMIE). بالإضافة إلى ذلك، نقترح كتلة الانتباه الديناميكي (DA) من خلال التركيز الانتقائي على منطقة الشفتين في الصورة المدخلة خلال مرحلة التدريب، لتعزيز تزامن الشفتين بشكل أكبر. نتائج التجارب على مجموعة بيانات LRW المرجعية و مجموعة بيانات GRID تتخطى الطرق المتاحة حاليًا من حيث مقاييس شائعة مع توليد عالي الدقة مستدام على تغيرات الجنس ووضعية الوجه.
درس زهو وآخرون (الأربعاء) هذا السؤال.