What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

MoDA: بنية الانتشار متعددة الأنماط لتوليد الرؤوس المتحدثة

Key Points

MoDA تحسن تنوع الفيديو وواقعيته، وعنوان التحديات في توليد الرؤوس المتحدثة.
تستخدم البنية فضاء معلمات مشتركا لتوليد الحركة وعرض البيانات العصبية.
تُبسط مطابقة التدفق عملية تعلم الانتشار، مما يعزز الكفاءة العامة.
تدمج استراتيجية الدمج من الخشن إلى الدقيق الأنماط المختلفة لتحقيق تعبيرية أغنى.

Abstract

تظل عملية توليد الرؤوس المتحدثة ذات الهويات والأصوات العشوائية مشكلة حاسمة في عالم الميتافيرس الافتراضي. مؤخراً، أصبحت نماذج الانتشار تقنية مولدة شائعة في هذا المجال بفضل قدراتها القوية. ومع ذلك، لا تزال هناك العديد من التحديات التي تواجه الطرق المعتمدة على الانتشار: 1) استنتاج غير فعال وعيوب بصرية ناتجة عن الفضاء الكامن الضمني لوحدات التشفير التلقائي التبايني (VAE)، مما يعقد عملية الانتشار؛ 2) نقص في تعبيرات الوجه الحقيقية وحركات الرأس بسبب عدم كفاية دمج المعلومات متعددة الأنماط. في هذه الورقة، تتعامل MoDA مع هذه التحديات من خلال: 1) تعريف فضاء معلمات مشترك يجسر بين توليد الحركة وعرض البيانات العصبية، واستخدام مطابقة التدفق لتبسيط عملية تعلم الانتشار؛ 2) تقديم بنية انتشار متعددة الأنماط لنمذجة التفاعل بين الحركة الضوضائية والصوت والشروط المساعدة، مما يعزز التعبيرية العامة للوجه. بالإضافة إلى ذلك، يتم استخدام استراتيجية دمج من الخشن إلى الدقيق لدمج الأنماط المختلفة تدريجياً، مما يضمن دمجًا فعالًا للميزات. تظهر النتائج التجريبية أن MoDA تحسن تنوع الفيديو وواقعيته وكفاءته، مما يجعلها مناسبة للتطبيقات في العالم الحقيقي. صفحة المشروع: https://lixinyyang.github.io/MoDA.github.io/

MoDA: بنية الانتشار متعددة الأنماط لتوليد الرؤوس المتحدثة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider