What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

MoDA: मल्टी-मोडल डिफ्यूजन आर्किटेक्चर जो बात करने वाले सिर का निर्माण करता है

Key Points

MoDA वीडियो विविधता और यथार्थवाद में सुधार करता है, बात करने वाले सिर के निर्माण में चुनौतियों का समाधान करता है।
आर्किटेक्चर गति निर्माण और न्यूरल रेंडरिंग के लिए एक संयुक्त पैरामीटर स्पेस का उपयोग करता है।
फ्लो मैचिंग डिफ्यूजन सीखने की प्रक्रिया को सरल बनाता है, समग्र दक्षता को बढ़ाता है।
एक मोटे से बारीकी तक की विलय रणनीति विभिन्न तरीकों को समृद्ध अभिव्यक्तित्व के लिए एकीकृत करती है।

Abstract

मनोरंजन संसार में मनमाने पहचान और भाषण ऑडियो के साथ बात करने वाले सिर का निर्माण एक महत्वपूर्ण समस्या बनी हुई है। हाल ही में, डिफ्यूजन मॉडल इस क्षेत्र में अपनी मजबूत उत्पादन क्षमताओं के साथ एक लोकप्रिय जनरेटिव तकनीक बन गए हैं। हालाँकि, डिफ्यूजन-आधारित विधियों के लिए कई चुनौतियाँ बनी हुई हैं: 1) वैरिएशनल ऑटो-एन्कोडर्स (VAE) की निहित लेटेंट स्पेस के कारण अकार्यक्षमता और दृश्य कलाकृतियाँ, जो डिफ्यूजन प्रक्रिया को जटिल बनाती हैं; 2) अपर्याप्त मल्टी-मोडल सूचना विलय के कारण प्रामाणिक चेहरे के भाव और सिर की गतिविधियों की कमी। इस पेपर में, MoDA इन चुनौतियों का सामना करता है: 1) एक संयुक्त पैरामीटर स्पेस को परिभाषित करना जो गति निर्माण और न्यूरल रेंडरिंग को जोड़ता है, और डिफ्यूजन सीखने को सरल बनाने के लिए फ्लो मैचिंग का लाभ उठाना; 2) शोर वाली गति, ऑडियो और सहायक स्थितियों के बीच अंतःक्रिया को मॉडल करने के लिए एक मल्टी-मोडल डिफ्यूजन आर्किटेक्चर पेश करना, जो समग्र चेहरे की अभिव्यक्ति को बढ़ाता है। इसके अतिरिक्त, प्रभावशाली विशेषता विलय सुनिश्चित करने के लिए धीरे-धीरे विभिन्न तरीकों को एकीकृत करने के लिए एक मोटे से बारीकी तक विलय रणनीति का उपयोग किया जाता है। प्रयोगात्मक परिणाम स्पष्ट रूप से दिखाते हैं कि MoDA वीडियो विविधता, यथार्थवाद, और दक्षता में सुधार करता है, जिससे यह वास्तविक-विश्व अनुप्रयोगों के लिए उपयुक्त बनाता है। प्रोजेक्ट पृष्ठ: https://lixinyyang.github.io/MoDA.github.io/

MoDA: मल्टी-मोडल डिफ्यूजन आर्किटेक्चर जो बात करने वाले सिर का निर्माण करता है

Key Points

Abstract

Cite This Study

Also Consider

Also Consider