September 1, 2024Open Access

FlowAVSE: 조건부 흐름 일치를 통한 효율적인 오디오-비주얼 음성 향상

Key Points

Key points are not available for this paper at this time.

Abstract

이 연구는 음향 및 시각적 단서를 활용하여 손상된 음성 신호의 품질을 향상시키는 효율적인 방법을 제안합니다. 기존의 확산 기반 접근법은 탁월한 품질을 보여주었지만, 느린 추론 속도와 계산 복잡성으로 인해 적용 가능성이 제한적입니다. 이 문제를 해결하기 위해 우리는 FlowAVSE를 제시하여 추론 속도를 향상시키고 출력 품질을 저하시키지 않으면서 학습 가능한 매개변수의 수를 줄입니다. 특히, 우리는 단일 샘플링 단계에서 고품질 음성을 생성할 수 있는 조건부 흐름 일치 알고리즘을 사용합니다. 또한, 확산 기반 시스템의 기본 U-net 아키텍처를 최적화하여 효율성을 높입니다. 실험 결과 FlowAVSE는 22배 빠른 추론 속도를 달성하고 모델 크기를 절반으로 줄이면서 출력 품질을 유지함을 보여줍니다. 데모 페이지는 다음에서 확인할 수 있습니다: https://cyongong.github.io/FlowAVSE.github.io/.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

정(정) 외 (Sun,)은 이 문제를 연구했습니다.

synapsesocial.com/papers/68e59d79b6db6435875378df https://doi.org/https://doi.org/10.21437/interspeech.2024-701

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper