Key points are not available for this paper at this time.
تستخدم الطرق الحديثة في توليد الطوابق المتحدثة المعتمدة على الصوت عادةً حقول الإشعاع العصبي (NeRF) في فيديو صورة متحدثة أحادية، مما يستفيد من قدرتها على تقديم إطارات جديدة عالية الدقة ومتسقة ثلاثية الأبعاد. ومع ذلك، غالبًا ما تكافح لإعادة بناء هندسة الوجه الكاملة بسبب غياب معلومات ثلاثية الأبعاد شاملة في مقاطع الفيديو الأحادية المدخلة. في هذه الورقة، نقدم إطار عمل جديد لتوليد الطوابق المتحدثة المعتمدة على الصوت، يسمى Talk3D، يمكنه بشكل دقيق إعادة بناء هندسة وجهه المحتملة من خلال اعتماد الأسبقية المولدة ثلاثية الأبعاد المدربة مسبقًا بشكل فعال. نظرًا للنموذج المولد ثلاثي الأبعاد المخصص، نقدم معمارية U-Net جديدة موجهة بواسطة الصوت تتنبأ بتغيرات الوجه الديناميكية في مساحة NeRF المدفوعة بالصوت. علاوة على ذلك، يتم تعديل نموذجنا أيضًا بواسطة رموز شرطية غير مرتبطة بالصوت تفصل بفعالية التغيرات غير المتعلقة بميزات الصوت. بالمقارنة مع الطرق الحالية، يتفوق أسلوبنا في توليد هندسات وجه واقعية حتى تحت وضعيات رأسية شديدة. نقوم أيضًا بإجراء تجارب واسعة تظهر أن نهجنا يتجاوز المعايير المتقدمة الحالية من حيث التقييمات الكمية والنوعية.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jae‐Hoon Ko
Samsung Medical Center
Kyusun Cho
Korea University
Joungbin Lee
Georgia Institute of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
درس كوه وآخرون (جمعة) هذا السؤال.
synapsesocial.com/papers/68e71cc2b6db64358769697a — DOI: https://doi.org/10.48550/arxiv.2403.20153
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: