Key points are not available for this paper at this time.
Aprender dependências de longo prazo em redes recorrentes é difícil devido a gradientes que desaparecem e explodem. Para superar essa dificuldade, os pesquisadores desenvolveram técnicas de otimização sofisticadas e arquiteturas de rede. Neste artigo, propomos uma solução mais simples que utiliza redes neurais recorrentes compostas de unidades lineares retificadas. A chave para nossa solução é o uso da matriz identidade ou sua versão escalonada para inicializar a matriz de pesos recorrente. Descobrimos que nossa solução é comparável ao LSTM em nossos quatro benchmarks: dois problemas simples envolvendo estruturas temporais de longo alcance, um grande problema de modelagem de linguagem e um problema de reconhecimento de fala de referência.
Le et al. (Sex,) estudaram essa questão.