Key points are not available for this paper at this time.
우리는 AIST++를 소개합니다. AIST++는 3D 댄스 모션과 음악의 새로운 다중 모드 데이터셋이며, 음악에 조건화된 3D 댄스 모션 생성을 위한 Full-Attention Cross-modal Transformer 네트워크인 FACT와 함께 제공됩니다. 제안된 AIST++ 데이터셋은 1408개 시퀀스에서 5.2시간 분량의 3D 댄스 모션을 포함하며, 카메라 위치를 알 수 있는 다중 뷰 비디오와 함께 10개의 댄스 장르를 다룹니다. 현재 우리가 알고 있는 바에 따르면, 이 종류의 데이터셋 중 가장 큰 것입니다. 우리는 음악 조건의 3D 모션 생성 작업을 위해 이 데이터셋에 트랜스포머와 같은 시퀀스 모델을 단순히 적용하는 것이 입력 음악과 잘 연관된 만족스러운 3D 모션을 생성하지 못한다는 것을 보여줍니다. 이러한 단점을 극복하기 위해 아키텍처 설계와 감독에서 주요 변경 사항을 도입합니다: FACT 모델은 N개의 미래 모션을 예측하기 위해 훈련된 전체 주의력(full-attention)을 가진 깊은 교차 모드 변환기 블록을 포함합니다. 우리는 이러한 변경 사항이 입력 음악에 잘 조율된 현실적인 댄스 모션의 긴 시퀀스를 생성하는 데 핵심 요소임을 경험적으로 보여줍니다. 우리는 사용자 연구가 포함된 AIST++에 대한 광범위한 실험을 수행했으며, 우리의 방법이 최근의 최첨단 방법들보다 정성적 및 정량적으로 우수함을 입증합니다. 코드와 데이터셋은 다음에서 찾을 수 있습니다: https://google.github.io/aichoreographer.
Li et al. (Fri,)은 이 질문을 연구했습니다.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: