Key points are not available for this paper at this time.
Popularizado pela memória de longo curto prazo (LSTM), portas multiplicativas tornaram-se um meio padrão de projetar redes neurais artificiais com fluxo de informação intencionalmente organizado. Exemplos notáveis de tais arquiteturas incluem unidades recorrentes com porta (GRU) e redes de highway. Neste trabalho, primeiro focamos na avaliação de cada uma das arquiteturas clássicas com porta para modelagem de linguagem para reconhecimento de fala com grande vocabulário. Ou seja, avaliamos a rede de highway, a rede lateral, LSTM e GRU. Além disso, a motivação subjacente à rede de highway também se aplica a LSTM e GRU. Uma extensão específica para o LSTM foi recentemente proposta com uma conexão adicional de highway entre as células de memória das camadas LSTM adjacentes. Em contraste, investigamos uma abordagem que pode ser usada tanto com LSTM quanto com GRU: uma rede de highway na qual o LSTM ou GRU é usado como a função de transformação. Descobrimos que as conexões de highway permitem que tanto modelos de linguagem neuronais feedforward quanto recorrentes se beneficiem melhor da estrutura profunda e proporcionem uma ligeira melhoria na precisão de reconhecimento após a interpolação com modelos de contagem. Para completar a visão geral, incluímos nossas investigações iniciais sobre o uso do mecanismo de atenção para aprender disparadores de palavras.
Irie et al. (Mon,) estudaram esta questão.