Key points are not available for this paper at this time.
Os coreógrafos determinam como as danças se apresentam, enquanto os cinegrafistas determinam a apresentação final das danças. Recentemente, vários métodos e conjuntos de dados demonstraram a viabilidade da síntese de dança. No entanto, a síntese de movimento de câmera com música e dança continua a ser um problema desafiador não resolvido devido à escassez de dados pareados. Assim, apresentamos o DCM, um novo conjunto de dados multimodal 3D, que pela primeira vez combina movimento de câmera com movimento de dança e áudio musical. Este conjunto de dados abrange 108 sequências de dança (3,2 horas) de dados pareados de dança-câmera-música da comunidade de anime, cobrindo 4 gêneros musicais. Com este conjunto de dados, descobrimos que o movimento da câmera de dança é multifacetado e humanocêntrico, e possui múltiplos fatores de influência, tornando a síntese da câmera de dança uma tarefa mais desafiadora em comparação à síntese de câmera ou dança isoladamente. Para superar essas dificuldades, propomos o DanceCamera3D, um modelo de difusão baseado em transformers que incorpora uma nova perda de atenção corporal e uma estratégia de separação de condições. Para avaliação, elaboramos novas métricas que medem a qualidade do movimento da câmera, diversidade e fidelidade do dançarino. Utilizando essas métricas, conduzimos experimentos extensivos em nosso conjunto de dados DCM, fornecendo evidências quantitativas e qualitativas que demonstram a eficácia do nosso modelo DanceCamera3D. O código e demos em vídeo estão disponíveis em https://github.com/Carmenw1203/DanceCamera3D-Official.
Wang et al. (Qua,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: