تظل عملية توليد الرؤوس المتحدثة ذات الهويات والأصوات العشوائية مشكلة حاسمة في عالم الميتافيرس الافتراضي. مؤخراً، أصبحت نماذج الانتشار تقنية مولدة شائعة في هذا المجال بفضل قدراتها القوية. ومع ذلك، لا تزال هناك العديد من التحديات التي تواجه الطرق المعتمدة على الانتشار: 1) استنتاج غير فعال وعيوب بصرية ناتجة عن الفضاء الكامن الضمني لوحدات التشفير التلقائي التبايني (VAE)، مما يعقد عملية الانتشار؛ 2) نقص في تعبيرات الوجه الحقيقية وحركات الرأس بسبب عدم كفاية دمج المعلومات متعددة الأنماط. في هذه الورقة، تتعامل MoDA مع هذه التحديات من خلال: 1) تعريف فضاء معلمات مشترك يجسر بين توليد الحركة وعرض البيانات العصبية، واستخدام مطابقة التدفق لتبسيط عملية تعلم الانتشار؛ 2) تقديم بنية انتشار متعددة الأنماط لنمذجة التفاعل بين الحركة الضوضائية والصوت والشروط المساعدة، مما يعزز التعبيرية العامة للوجه. بالإضافة إلى ذلك، يتم استخدام استراتيجية دمج من الخشن إلى الدقيق لدمج الأنماط المختلفة تدريجياً، مما يضمن دمجًا فعالًا للميزات. تظهر النتائج التجريبية أن MoDA تحسن تنوع الفيديو وواقعيته وكفاءته، مما يجعلها مناسبة للتطبيقات في العالم الحقيقي. صفحة المشروع: https://lixinyyang.github.io/MoDA.github.io/
درس لي وآخرون (الجمعة) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: