July 1, 2020Open Access

توليد وجه يتحدث بشكل عشوائي عبر تعلم التناسق الصوتي-البصري القائم على الانتباه

Key Points

Key points are not available for this paper at this time.

Abstract

يهدف توليد الوجه المتحدث إلى تصنيع فيديو وجه مع تزامن دقيق للشفتين بالإضافة إلى انتقال سلس لحركة الوجه على مدار الفيديو بأكمله من خلال مقطع الكلام والصورة الوجهية المعطاة. تركز معظم الطرق الحالية بشكل رئيسي على إما فصل المعلومات في صورة واحدة أو تعلم المعلومات الزمنية بين الإطارات. ومع ذلك، لم يتم التعامل بشكل جيد مع التناسق بين المعلومات الصوتية والفيديو أثناء التوليف. في هذه الورقة، نقترح إطار عمل جديد لتوليد الوجه المتحدث بشكل عشوائي من خلال اكتشاف التناسق الصوتي-البصري عبر التقدير المقاس غير المتناظر للمعلومات (AMIE). بالإضافة إلى ذلك، نقترح كتلة الانتباه الديناميكي (DA) من خلال التركيز الانتقائي على منطقة الشفتين في الصورة المدخلة خلال مرحلة التدريب، لتعزيز تزامن الشفتين بشكل أكبر. نتائج التجارب على مجموعة بيانات LRW المرجعية و مجموعة بيانات GRID تتخطى الطرق المتاحة حاليًا من حيث مقاييس شائعة مع توليد عالي الدقة مستدام على تغيرات الجنس ووضعية الوجه.

Bookmark

View Full Paper

Bookmark

View Full Paper

توليد وجه يتحدث بشكل عشوائي عبر تعلم التناسق الصوتي-البصري القائم على الانتباه

Key Points

Abstract

Cite This Study