March 18, 2024Open Access

Amélioration de l'amplification de la parole avec des caractéristiques auto-supervisées propres via des autoencodeurs variationnels conditionnels

Key Points

Key points are not available for this paper at this time.

Abstract

Récemment, des caractéristiques auto-supervisées (SSF) entraînées sur des ensembles de données de parole étendus ont montré des gains de performance significatifs dans diverses tâches de traitement de la parole. Néanmoins, leur efficacité dans les systèmes d'amplification de la parole (SE) est souvent sous-optimale en raison d'une optimisation insuffisante pour les environnements bruyants. Pour aborder ce problème, nous présentons une méthodologie novatrice qui utilise directement les SSF extraites de la parole propre pour améliorer les modèles SE. Plus précisément, nous exploitons les SSF propres pour le modélisation de l'espace latent dans le cadre des autoencodeurs variationnels conditionnels (CVAE). Par conséquent, nous permettons à notre modèle de tirer pleinement parti des connaissances existantes dans les SSF propres sans l'interférence du bruit. Dans les expériences, notre approche offre des améliorations claires par rapport aux méthodes existantes qui utilisent des SSF à travers six métriques d'évaluation. De plus, nous fournissons des analyses complètes pour valider l'efficacité de 1) l'intégration des SSF propres dans le cadre du CVAE et 2) les techniques d'entraînement utilisées pour atteindre des performances optimales de notre approche dans les systèmes SE. Le code et des échantillons audio sont disponibles à https://github.com/YoonhyungLee94/SSFCVAE

Amélioration de l'amplification de la parole avec des caractéristiques auto-supervisées propres via des autoencodeurs variationnels conditionnels

Key Points

Abstract

Cite This Study

Also Consider

Also Consider