November 5, 2019Open Access

RNN-T für latenzgesteuerte ASR mit verbessertem Beam-Search

Key Points

Key points are not available for this paper at this time.

Abstract

Neuronale Transducer-basierte Systeme wie RNN Transducer (RNN-T) für automatische Sprachrecognition (ASR) vereinen die einzelnen Komponenten traditioneller hybrider ASR-Systeme (akustisches Modell, Sprachmodell, Interpunktionsmodell, inverse Textnormalisierung) in einem einzigen Modell. Dies vereinfacht das Training und die Inferenz erheblich und macht RNN-T zu einer wünschenswerten Wahl für ASR-Systeme. In dieser Arbeit untersuchen wir die Verwendung von RNN-T in Anwendungen, die eine anpassbare Latenzbudget während der Inferenzzeit erfordern. Wir haben auch die Decodierungsgeschwindigkeit des ursprünglich vorgeschlagenen RNN-T Beam-Search-Algorithmus verbessert. Wir haben unser vorgeschlagenes System an einem englischen ASR-Datensatz für Videos evaluiert und zeigen, dass neuronale RNN-T-Modelle vergleichbare WER und eine bessere rechnerische Effizienz im Vergleich zu einem gut abgestimmten hybriden ASR-Baseline erreichen können.

Bookmark

View Full Paper