L'amélioration de la parole (SE) basée sur des modèles probabilistes de diffusion a montré des performances impressionnantes, tout en nécessitant un nombre relativement élevé d'évaluations de fonction (NFE). Récemment, la SE basée sur l'appariement de flux a été proposée, montrant des performances compétitives avec un faible NFE. Les premières approches ont adopté la parole bruitée comme seule variable de conditionnement. D'autres approches ont utilisé la parole améliorée avec un modèle prédictif comme une autre variable de conditionnement pour échantillonner une valeur initiale, mais elles nécessitent un modèle prédictif séparé en plus du modèle génératif de SE. Dans ce travail, nous proposons d'employer un modèle identique basé sur l'appariement de flux pour à la fois la SE et la génération de parole améliorée utilisée comme point de départ initial et variable de conditionnement. Les résultats expérimentaux ont montré que la méthode proposée nécessitait le même nombre ou moins de NFE, même avec deux méthodes génératives en cascade, tout en atteignant des performances équivalentes ou meilleures par rapport aux lignes de base précédentes.
Lee et al. (Sat,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: