What type of study is this?

This is a Quantitative Study study.

September 28, 2025Open Access

Amélioration de la parole basée sur des flux en cascade

Key Points

La méthode proposée obtient de meilleures performances ou des performances équivalentes avec moins d'évaluations de fonction.
L'utilisation de l'appariement de flux pour l'amélioration de la parole et le conditionnement initial réduit considérablement les demandes informatiques.
Les modèles précédents nécessitaient des cadres prédictifs séparés ; cette méthode intègre les deux processus dans un seul modèle.
Les résultats expérimentaux confirment que les modèles génératifs en cascade peuvent améliorer l'efficacité dans les tâches d'amélioration de la parole.

Abstract

L'amélioration de la parole (SE) basée sur des modèles probabilistes de diffusion a montré des performances impressionnantes, tout en nécessitant un nombre relativement élevé d'évaluations de fonction (NFE). Récemment, la SE basée sur l'appariement de flux a été proposée, montrant des performances compétitives avec un faible NFE. Les premières approches ont adopté la parole bruitée comme seule variable de conditionnement. D'autres approches ont utilisé la parole améliorée avec un modèle prédictif comme une autre variable de conditionnement pour échantillonner une valeur initiale, mais elles nécessitent un modèle prédictif séparé en plus du modèle génératif de SE. Dans ce travail, nous proposons d'employer un modèle identique basé sur l'appariement de flux pour à la fois la SE et la génération de parole améliorée utilisée comme point de départ initial et variable de conditionnement. Les résultats expérimentaux ont montré que la méthode proposée nécessitait le même nombre ou moins de NFE, même avec deux méthodes génératives en cascade, tout en atteignant des performances équivalentes ou meilleures par rapport aux lignes de base précédentes.

Amélioration de la parole basée sur des flux en cascade

Key Points

Abstract

Cite This Study

Also Consider

Also Consider