March 28, 2024Open Access

Pré-entraînement multi-modal à plusieurs étapes pour la reconnaissance automatique de la parole

Key Points

Key points are not available for this paper at this time.

Abstract

Des avancements récents en apprentissage automatique ont démontré que le pré-entraînement multi-modal peut améliorer la performance de la reconnaissance automatique de la parole (ASR) par rapport aux modèles initialisés aléatoirement, même lorsque les modèles sont ajustés sur des tâches uni-modales. Les méthodes actuelles de pré-entraînement multi-modal pour la tâche ASR se sont principalement concentrées sur un pré-entraînement à une seule étape, où une seule tâche non supervisée est utilisée pour le pré-entraînement, suivie d'un ajustement sur la tâche en aval. Dans ce travail, nous introduisons une nouvelle méthode combinant un pré-entraînement non supervisé multi-modal et multi-tâches avec une approche de mi-formation supervisée basée sur la traduction. Nous démontrons empiriquement que cette approche à plusieurs étapes conduit à des améliorations du taux d'erreur de mots (WER) allant jusqu'à 38,45 % par rapport aux bases de référence à la fois sur Librispeech et SUPERB. De plus, nous partageons plusieurs résultats importants sur le choix des méthodes et des ensembles de données de pré-entraînement.

Pré-entraînement multi-modal à plusieurs étapes pour la reconnaissance automatique de la parole

Key Points

Abstract

Cite This Study

Also Consider

Also Consider