Key points are not available for this paper at this time.
토킹 헤드 생성은 여전히 수많은 도전에 직면한 중요한 연구 주제입니다. 이전 연구들은 종종 생성적 적대 신경망이나 회귀 모델을 사용하지만, 이들은 생성 품질과 평균 얼굴 형상 문제에 시달리고 있습니다. 확산 모델은 인상적인 생성 능력을 보이지만, 토킹 헤드 생성에서의 탐색은 미흡합니다. 이는 이들 모델이 중간 표현을 얻기 위해 확산 모델만을 사용하고, 그 후 또 다른 사전 훈련된 렌더러를 사용하는 경우이거나, 복잡한 얼굴 세세한 부분, 예를 들어 표정, 머리 자세 및 외형 텍스처의 특징 분리를 간과하기 때문입니다. 따라서 우리는 얼굴 세부 사항을 완전히 분리하고, 확산 모델의 장점을 최대한 활용하는 'FD2Talk'라는 토킹 헤드 생성을 위한 얼굴 분리 확산 모델을 제안합니다. 구체적으로 우리는 얼굴 세부 사항을 모션과 외형으로 나눕니다. 초기 단계에서 우리는 원시 오디오로부터 모션 계수를 정확하게 예측하기 위해 확산 변환기를 설계합니다. 이러한 모션은 외형과 크게 분리되어 있어, 고차원 RGB 이미지에 비해 네트워크가 배우기 더 쉽습니다. 그 후, 두 번째 단계에서 우리는 참조 이미지를 인코딩하여 외형 텍스처를 포착합니다. 예측된 얼굴 및 머리 모션과 인코딩된 외형은 확산 UNet에 대한 조건으로 작용하여 프레임 생성을 안내합니다. 얼굴 세부 사항의 분리와 확산 모델의 완전한 활용을 통해, 광범위한 실험 결과 우리의 접근 방식이 이전의 최첨단 방법들과 비교하여 이미지 품질을 향상시키고 더 정확하고 다양한 결과를 생성하는 데 뛰어나다는 것을 입증합니다.
Yao et al. (Sun,) 는 이 질문을 연구했습니다.