Key points are not available for this paper at this time.
Il a été montré que l'intelligibilité de la parole bruitée peut être améliorée par des algorithmes d'amélioration de la parole (SE). Cependant, le SE monaural n'a pas été établi comme un frontend efficace pour la reconnaissance automatique de la parole (ASR) dans des conditions bruyantes par rapport à un modèle ASR entraîné directement sur la parole bruitée. La séparation entre le SE et l'ASR entrave le progrès des systèmes ASR robustes, surtout que le SE a connu des avancées majeures ces dernières années. Cet article se concentre sur l'élimination de cette séparation avec un modèle ARN (réseau récurrent attentif) en domaine temporel et des modèles d'amélioration CrossNet en domaine temps-fréquence. Les systèmes proposés découplent complètement l'amélioration du frontend et l'ASR backend entraîné uniquement sur de la parole propre. Les résultats sur les corpus WSJ, CHiME-2, LibriSpeech et CHiME-4 démontrent que la parole améliorée par ARN et CrossNet se traduit par de meilleurs résultats ASR dans des environnements bruyants et réverbérants, et se généralise bien aux scénarios acoustiques réels. Le système proposé surpasse les références entraînées directement sur la parole corrompue. De plus, il réduit le meilleur taux d'erreur de mots (WER) précédent sur CHiME-2 de 28,4 % relativement avec un WER de 5,57 %, et atteint un WER de 3,32/4,44 % sur des données de test simulées/réelles CHiME-4 monocanal sans entraînement sur CHiME-4.
Yang et al. (Sun,) ont étudié cette question.