What question did this study set out to answer?

The aim is to enhance dance generation through better control and personalization using music and text guidance.

January 27, 2026

Multimodal Dance Generation With Multi‐Granularity Style Control and Text Guidance

Key Points

The aim is to enhance dance generation through better control and personalization using music and text guidance.
Developed a framework for multimodal and multi-granularity dance control.
Used two cross-modal Transformers, LS-M2D and LT-SM2D, for style control and text integration.
Applied global and local control techniques for motion refinement.
Demonstrated improved motion quality in generated dances.
Achieved effective multi-granularity style control for personalized outputs.
Showed precise flexibility in dance generation guided by text.

Abstract

ABSTRACT Dance generation is a significant research area in computer arts and artificial intelligence. This study proposes a novel framework to enhance dance controllability and personalization through multimodal and multi‐granularity control. The framework establishes global choreographic control of long sequences via music and dance style factors, while accommodating local style variations. Simultaneously, it enables fine‐grained local control using style, text, and temporal factors for motion refinement. We develop two cross‐modal Transformers: the LS‐M2D model merges music and dance style features for local style‐controllable dance generation, and the LT‐SM2D model integrates textual guidance with music and dance style features for time‐constrained local control. Experimental results demonstrate enhanced motion quality, effective multi‐granularity style control, and precise text‐guided flexibility. This provides valuable technical support for personalized intelligent dance generation systems.

Bookmark

Cite This Study

Wang et al. (Thu,) studied this question.

synapsesocial.com/papers/69785538ccb046adae5176cf https://doi.org/https://doi.org/10.1002/cav.70097

Bookmark