目的根据文本提示生成三维人体动作是多模态生成领域的前沿研究方向。尽管当前已经取得了诸多的研究进展,但现有方法在语义对齐精度、局部动作控制和全局协调性方面存在局限,难以实现从文本到高保真三维资产的一体化生成。针对上述问题,本文提出一种局部生成与全局融合的级联式扩散生成框架。方法首先,利用大语言模型将输入文本自动解耦为头部、四肢及躯干等六个部位的独立语义描述;其次,构建六路并行、梯度隔离的局部扩散编码器,为各部位独立生成动作特征;再次,设计全局融合网络将局部特征融合为符合生物力学的全身姿态,并解码为SMPL(a skinned multi-person linear model)参数化网格;最后,将SMPL网格转换为3D高斯表示,并引入二维扩散模型作为视觉先验,通过分数蒸馏采样优化其外观细节,实现从文本到可实时渲染三维人体的一体化生成。结果在HumanML3D(3D human motion-language Dataset)和KIT-ML(the KIT motion-language dataset)数据集上开展了对比实验,并从FID(Fréchet inception distance)、和CLIP-S(CLIP similarity)两个维度评估分析本文以及基线对比方法的生成结果。相较于基线方法,本文方法在生成质量和动作准确度方面均有提升,消融实验验证了本文设计思路的有效性。结论本文方法能够有效提升所生成人体动作的细节表现力、多样性以及文本语义一致性,为三维人体动作生成提供了高效、可扩展的技术方案。
Renjie et al. (Thu,) studied this question.