Key points are not available for this paper at this time.
Redes Neurais Convolucionais (CNNs) são um tipo alternativo de rede neural que pode ser usado para reduzir variações espectrais e modelar correlações espectrais que existem em sinais. Como os sinais de fala exibem ambas essas propriedades, as CNNs são um modelo mais eficaz para fala em comparação com Redes Neurais Profundas (DNNs). Neste artigo, exploramos a aplicação de CNNs em tarefas de fala de grande vocabulário. Primeiro, determinamos a arquitetura apropriada para tornar as CNNs eficazes em comparação com as DNNs para tarefas de LVCSR. Especificamente, focamos em quantas camadas convolucionais são necessárias, qual é o número ideal de unidades ocultas, qual é a melhor estratégia de pooling e o melhor tipo de característica de entrada para as CNNs. Em seguida, exploramos o comportamento das características de rede neural extraídas das CNNs em uma variedade de tarefas de LVCSR, comparando CNNs com DNNs e GMMs. Descobrimos que as CNNs oferecem uma melhoria relativa entre 13-30% em relação aos GMMs e uma melhoria relativa de 4-12% em relação às DNNs, em uma tarefa de 400 horas de notícias transmitidas e 300 horas de Switchboard.
Sainath et al. (Wed,) estudaram essa questão.