Key points are not available for this paper at this time.
Récemment, des caractéristiques auto-supervisées (SSF) entraînées sur des ensembles de données de parole étendus ont montré des gains de performance significatifs dans diverses tâches de traitement de la parole. Néanmoins, leur efficacité dans les systèmes d'amplification de la parole (SE) est souvent sous-optimale en raison d'une optimisation insuffisante pour les environnements bruyants. Pour aborder ce problème, nous présentons une méthodologie novatrice qui utilise directement les SSF extraites de la parole propre pour améliorer les modèles SE. Plus précisément, nous exploitons les SSF propres pour le modélisation de l'espace latent dans le cadre des autoencodeurs variationnels conditionnels (CVAE). Par conséquent, nous permettons à notre modèle de tirer pleinement parti des connaissances existantes dans les SSF propres sans l'interférence du bruit. Dans les expériences, notre approche offre des améliorations claires par rapport aux méthodes existantes qui utilisent des SSF à travers six métriques d'évaluation. De plus, nous fournissons des analyses complètes pour valider l'efficacité de 1) l'intégration des SSF propres dans le cadre du CVAE et 2) les techniques d'entraînement utilisées pour atteindre des performances optimales de notre approche dans les systèmes SE. Le code et des échantillons audio sont disponibles à https://github.com/YoonhyungLee94/SSFCVAE
Lee et al. (Mon,) ont étudié cette question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: