생성적 범용 음성 향상(USE) 방법은 다양한 왜곡 유형에서 음질을 개선하기 위해 생성 모델을 활용하는 것을 목표로 합니다. 확산 또는 흐름 기반 생성 모델은 높은 품질과 충실도의 향상된 음성을 생성할 수 있습니다. 하지만 이들은 일반적으로 저하된 음성에서 깨끗한 음성으로의 음향 특징 매핑을 학습하여 음성 향상을 이루지만, 고수준 의미 정보에 대한 인식은 부족합니다. 이러한 결핍은 향상된 음성에서 의미의 모호성과 음향의 불연속성을 유도하는 경향이 있습니다. 반면, 인간은 의미적인 사전지식을 활용하여 심각하게 손상된 음성을 종종 이해할 수 있으며, 이는 의미가 음성 향상에 중요한 역할을 한다는 것을 시사합니다. 따라서 본 논문에서는 왜곡된 음성의 의미 정보를 포착하고 이를 흐름 매칭 기반 음성 향상 프레임워크에 효과적으로 통합하는 언어 모델을 활용한 SenSE를 제안합니다. 구체적으로, 우리는 저하된 음성의 의미를 포착하고 의미 토큰을 생성하기 위해 의미 인식 음성 언어 모델을 도입합니다. 그런 다음, 의미 정보를 흐름 매칭 기반 음성 향상 프로세스에 통합하는 의미 안내 메커니즘을 설계하여 의미의 모호성을 효과적으로 완화합니다. 추가적으로, 우리는 심각한 왜곡 조건 아래에서 화자 유사성의 손실을 완화하기 위해 짧은 참조 발화를 활용하는 프롬프트 안내 메커니즘을 제안합니다. 여러 벤치마크 데이터 세트의 결과는 SenSE가 높은 지각 품질을 보장할 뿐만 아니라 심각한 왜곡 아래에서도 음성 충실도를 크게 개선함을 보여줍니다. 코드와 데모를 사용할 수 있습니다.
Li et al. (Mon,)는 이 문제를 연구하였습니다.