Key points are not available for this paper at this time.
Recentemente, o Transformer obteve sucesso no campo de reconhecimento automático de fala (ASR). No entanto, é desafiador implantar um modelo de fim a fim (E2E) baseado em Transformer para reconhecimento de fala online. Neste artigo, propomos a arquitetura de ASR E2E online CTC/atenção baseada em Transformer, que contém o codificador de autoatenção de pedaços (chunk-SAE) e o decodificador de autoatenção (SAD) baseado em atenção truncada monotônica (MTA). Primeiro, o chunk-SAE divide a fala em pedaços isolados. Para reduzir o custo computacional e melhorar o desempenho, propomos o chunk-SAE de reutilização de estado. Em segundo lugar, o SAD baseado em MTA trunca as características da fala de forma monotônica e realiza atenção nas características truncadas. Para suportar o reconhecimento online, integramos o chunk-SAE de reutilização de estado e o SAD baseado em MTA na arquitetura online CTC/atenção. Avaliamos os modelos online propostos no benchmark de ASR Mandarim HKUST e alcançamos uma taxa de erro de caracteres (CER) de 23,66% com uma latência de 320 ms. Nosso modelo online apresenta uma degradação absoluta de CER de apenas 0,19% em comparação com a linha de base offline, e alcança uma melhoria significativa em relação ao nosso trabalho anterior em modelos E2E online baseados em Memória de Longo e Curto Prazo (LSTM).
Miao et al. (Qui,) estudaram essa questão.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: