September 16, 2022

WeNet 2.0: Ferramenta de Reconhecimento de Fala de Ponta a Ponta Mais Produtiva

Key Points

Key points are not available for this paper at this time.

Abstract

Recentemente, disponibilizamos o WeNet 1, uma ferramenta de reconhecimento de fala de ponta a ponta orientada para produção, que introduz uma estrutura unificada de dois passes (U2) e um tempo de execução interno para abordar os modos de decodificação em streaming e não streaming em um único modelo. Para melhorar ainda mais o desempenho do ASR e facilitar várias exigências de produção, neste artigo, apresentamos o WeNet 2.0 com quatro atualizações importantes. (1) Propomos o U2++, uma estrutura unificada de dois passes com decodificadores de atenção bidirecional, que inclui informações contextuais futuras por meio de um decodificador de atenção da direita para a esquerda para melhorar a capacidade representativa do codificador compartilhado e o desempenho durante a fase de reavaliação. (2) Introduzimos um modelo de linguagem baseado em n-gramas e um decodificador baseado em WFST no WeNet 2.0, promovendo o uso de dados de texto ricos em cenários de produção. (3) Projetamos uma estrutura de viés contextual unificado, que aproveita o contexto específico do usuário (por exemplo, listas de contatos) para fornecer capacidade de adaptação rápida para produção e melhora a precisão do ASR em cenários com e sem LM. (4) Projetamos uma IO unificada para suportar dados em larga escala para treinamento de modelos eficaz. Em resumo, o novíssimo WeNet 2.0 alcança até 10% de melhoria relativa no desempenho de reconhecimento em relação ao WeNet original em vários corpora e disponibiliza vários recursos importantes orientados para produção.

Perguntar à IA

Bookmark