目的语音驱动的整体运动生成旨在同时实现富有表现力的手势和与语音精确同步的面部表情。这两个任务具有不同本质:手势生成是非确定性的,同一段语音可对应多种自然动作,需要高多样性;而面部表情生成是确定性的,需要与音素精确对应,要求高准确性。现有方法面临三个关键局限:(1)采用固定架构设计强制施加任务间关系,阻碍模型捕捉手势与表情之间的真实动态联系;(2)使用人工设计的静态损失权重,无法适应训练过程中任务重要性的动态变化;(3)过度依赖最小化与真实数据的差异,导致手势过拟合而抑制多样性。本文旨在开发一个统一的自适应框架,在无需人工干预的情况下同时满足上述的双重目标。方法本文提出一个基于扩散模型的新框架,通过基于任务不确定性的多任务学习,自适应地平衡确定性的面部表情生成与非确定性的手势生成。该方法引入可学习的不确定性损失权重,能够在训练期间动态调整损失权重,使手势和表情任务自主挖掘并优化它们之间的关系,达到最优的效果,并且该方法减轻了调整参数的负担。结果在 BEAT 数据集上的实验表明,本文方法在面部表情的 FD 指标上达到 9.18(最优),在手势多样性上达到 52.5(最高)。用户研究进一步验证了该方法在手势多样性、面部同步性和整体运动质量等方面的优越性。结论本文提出的自适应扩散框架通过自适应任务平衡机制,成功解决了整体运动生成中面部同步性与手势多样性之间的权衡问题,实现了两个基本标准的同时满足,为语音驱动的虚拟形象动画提供了一种有效的解决方案。本文代码:https://doi.org/10.57760/sciencedb.j00240.00175。
Enyun et al. (Thu,) studied this question.