Key points are not available for this paper at this time.
Les modèles de parole pré-entraînés auto-supervisés existants ont offert un moyen efficace d'exploiter d'énormes corpus non annotés pour construire une bonne reconnaissance automatique de la parole (ASR). Cependant, de nombreux modèles actuels sont entraînés sur un corpus propre provenant d'une seule source, ce qui tend à mal fonctionner lorsque du bruit est présent pendant les tests. Néanmoins, il est crucial de surmonter l'influence néfaste du bruit pour les applications du monde réel. Dans ce travail, nous proposons un nouveau cadre d'entraînement, appelé deHuBERT, pour l'encodage de réduction du bruit inspiré par le principe de réduction de redondance de H. Barlow. Le nouveau cadre améliore l'algorithme d'entraînement HuBERT en introduisant des pertes auxiliaires qui poussent la matrice d'auto- et de corrélation croisée entre les embeddings déformés par le bruit vers la matrice d'identité. Cela encourage le modèle à produire des représentations vocales indifférentes au bruit. Avec cette méthode, nous rapportons une robustesse améliorée dans des environnements bruyants, y compris des bruits non vus, sans nuire aux performances sur l'ensemble propre.
Ng et al. (Fri,) ont étudié cette question.