Key points are not available for this paper at this time.
Des avancements récents en apprentissage automatique ont démontré que le pré-entraînement multi-modal peut améliorer la performance de la reconnaissance automatique de la parole (ASR) par rapport aux modèles initialisés aléatoirement, même lorsque les modèles sont ajustés sur des tâches uni-modales. Les méthodes actuelles de pré-entraînement multi-modal pour la tâche ASR se sont principalement concentrées sur un pré-entraînement à une seule étape, où une seule tâche non supervisée est utilisée pour le pré-entraînement, suivie d'un ajustement sur la tâche en aval. Dans ce travail, nous introduisons une nouvelle méthode combinant un pré-entraînement non supervisé multi-modal et multi-tâches avec une approche de mi-formation supervisée basée sur la traduction. Nous démontrons empiriquement que cette approche à plusieurs étapes conduit à des améliorations du taux d'erreur de mots (WER) allant jusqu'à 38,45 % par rapport aux bases de référence à la fois sur Librispeech et SUPERB. De plus, nous partageons plusieurs résultats importants sur le choix des méthodes et des ensembles de données de pré-entraînement.
Jain et al. (Jeu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: