Key points are not available for this paper at this time.
최근 텍스트-음성 (TTA) 생성에 대한 관심이 고조되고 있으며, 연구자들은 텍스트 설명으로부터 음성을 합성하기 위해 노력하고 있습니다. 그러나 대부분의 기존 방법은 잠재 확산 모델을 활용하여 음성과 텍스트 임베딩 간의 상관관계를 학습하지만, 생성된 음성과 비디오 간의 원활한 동기화를 유지하는 데에는 부족함이 있습니다. 이는 종종 쉽게 구별되는 음향-시각 불일치를 초래합니다. 이 격차를 줄이기 위해 우리는 비디오에 맞춘 텍스트-음성 생성의 획기적인 기준인 T2AV-Bench를 소개합니다. 이 기준은 시각적 정렬 및 시간적 일관성을 평가하기 위해 특별히 설계된 세 가지 새로운 메트릭으로 차별화됩니다. 이를 보완하기 위해 우리는 간단하면서도 효과적인 비디오 정렬 TTA 생성 모델인 T2AV도 제시합니다. 전통적인 방법을 넘어, T2AV는 시각 정렬 텍스트 임베딩을 조건적 기반으로 통합함으로써 잠재 확산 접근 방식을 개선합니다. 이 모델은 비디오 데이터로부터 시간적 뉘앙스를 추출하고 이해하기 위해 시간적 다중 헤드 주의 변환기를 사용하며, 이는 우리의 오디오-비주얼 ControlNet에 의해 더욱 향상되어 시간적 시각 표현과 텍스트 임베딩을 능숙하게 결합합니다. 이러한 통합을 더욱 강화하기 위해, 우리는 시각 정렬 텍스트 임베딩이 음성 특징과 밀접하게 공명하도록 설계된 대조 학습 목표를 포함합니다. AudioCaps와 T2AV-Bench에 대한 광범위한 평가 결과, 우리의 T2AV가 시각적 정렬 및 시간적 일관성을 보장하는 비디오 정렬 TTA 생성의 새로운 기준을 설정함을 보여줍니다.
Mo et al. (금요일) 이 질문을 연구했습니다.