Key points are not available for this paper at this time.
Neuronale Transducer-basierte Systeme wie RNN Transducer (RNN-T) für automatische Sprachrecognition (ASR) vereinen die einzelnen Komponenten traditioneller hybrider ASR-Systeme (akustisches Modell, Sprachmodell, Interpunktionsmodell, inverse Textnormalisierung) in einem einzigen Modell. Dies vereinfacht das Training und die Inferenz erheblich und macht RNN-T zu einer wünschenswerten Wahl für ASR-Systeme. In dieser Arbeit untersuchen wir die Verwendung von RNN-T in Anwendungen, die eine anpassbare Latenzbudget während der Inferenzzeit erfordern. Wir haben auch die Decodierungsgeschwindigkeit des ursprünglich vorgeschlagenen RNN-T Beam-Search-Algorithmus verbessert. Wir haben unser vorgeschlagenes System an einem englischen ASR-Datensatz für Videos evaluiert und zeigen, dass neuronale RNN-T-Modelle vergleichbare WER und eine bessere rechnerische Effizienz im Vergleich zu einem gut abgestimmten hybriden ASR-Baseline erreichen können.
Jain et al. (Tue,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: