Key points are not available for this paper at this time.
음성에 의해 주도되는 스타일리시 3D 얼굴 애니메이션의 생성은 음성, 스타일 및 해당 자연스러운 얼굴 움직임 간의 다대다 매핑을 학습해야 하므로 상당한 도전 과제가 됩니다. 그러나 기존 방법은 음성-모션 매핑을 위한 결정론적 모델을 사용하거나 스타일을 원-핫 인코딩 스킴으로 인코딩합니다. 특히, 원-핫 인코딩 접근 방식은 스타일의 복잡성을 포착하지 못하므로 일반화 능력을 제한합니다. 본 논문에서는 짧은 참조 비디오에서 스타일 임베딩을 추출하는 스타일 인코더와 결합된 확산 모델 기반의 생성 프레임워크인 DiffPoseTalk를 제안합니다. 추론 과정에서 음성과 스타일에 따라 생성 과정을 안내하기 위해 분류기 없는 가이드를 사용합니다. 특히, 우리의 스타일은 헤드 포즈의 생성을 포함하여 사용자 인식을 향상시킵니다. 또한 고품질의 실시간 오디오-비디오 데이터 세트에서 재구성된 3DMM 매개변수로 모델을 훈련시켜 스캔된 3D 말하는 얼굴 데이터의 부족 문제를 해결합니다. 광범위한 실험과 사용자 연구는 우리 방법이 최신 기술보다 우수함을 입증합니다. 코드와 데이터 세트는 https://diffposetalk.github.io에 있습니다.
Sun et al. (금요일,)는 이 질문을 연구했습니다.