Key points are not available for this paper at this time.
Os autores buscam treinar redes neurais recorrentes para mapear sequências de entrada em sequências de saída, para aplicações em reconhecimento ou produção de sequências. Os resultados são apresentados mostrando que aprender dependências de longo prazo em tais redes recorrentes usando descida do gradiente é uma tarefa muito difícil. É demonstrado como essa dificuldade surge ao prender robustamente bits de informação com certos atratores. As derivadas da saída no tempo t em relação às ativações das unidades no tempo zero tendem rapidamente a zero à medida que t aumenta para a maioria dos valores de entrada. Nessa situação, técnicas simples de descida do gradiente parecem inadequadas. A consideração de métodos alternativos de otimização e arquiteturas é sugerida.
Bengio et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: