Key points are not available for this paper at this time.
La technologie de reconnaissance vocale d'aujourd'hui est suffisamment mature pour être utile à de nombreuses applications pratiques. Dans ce contexte, il est d'une importance capitale de former des modèles acoustiques précis pour de nombreuses langues dans des contraintes de ressources données telles que les données, la puissance de traitement et le temps. L'entraînement multilingue a le potentiel de résoudre le problème des données et de combler l'écart de performance entre les langues riches en ressources et celles en pénurie de ressources. Les réseaux neuronaux se prêtent naturellement au partage de paramètres entre les langues, et les implémentations distribuées ont rendu possible la formation de grands réseaux. Dans cet article, nous présentons des résultats expérimentaux pour l'entraînement de réseaux multilingues et interlinguaux de onze langues romanes sur un total de 10k heures de données. Les gains relatifs moyens par rapport aux lignes de base monolingues sont de 4%/2% (langues à données rares/abondantes) pour l'entraînement croisé et de 7%/2% pour l'entraînement multilingue. Cependant, le gain supplémentaire provenant de l'entraînement conjoint des langues sur toutes les données entraîne une augmentation du temps d'entraînement d'environ quatre semaines, par rapport à deux semaines (monolingue) et une semaine (interlingual).
Heigold et al. (Mercredi,) ont étudié cette question.