Key points are not available for this paper at this time.
Les méthodes de modélisation acoustique basées sur la mémoire à long court terme (LSTM) ont récemment montré des performances de pointe sur certaines tâches de reconnaissance vocale. Pour obtenir une amélioration supplémentaire des performances, cette recherche examine des extensions profondes sur les LSTM, considérant que les modèles hiérarchiques profonds se révèlent plus efficaces qu'un modèle superficiel. Inspiré par des recherches antérieures sur la construction de réseaux neuronaux récurrents profonds (RNN), des architectures LSTM profondes alternatives sont proposées et évaluées empiriquement sur une tâche de reconnaissance vocale téléphonique conversationnelle à large vocabulaire. Parallèlement, concernant les dispositifs multi-GPU, le processus d'entraînement des réseaux LSTM est introduit et discuté. Les résultats expérimentaux démontrent que les réseaux LSTM profonds bénéficient de la profondeur et atteignent des performances de pointe sur cette tâche.
Li et al. (Mercredi,) ont étudié cette question.