December 30, 2002

O problema de aprender dependências de longo prazo em redes recorrentes

Key Points

Key points are not available for this paper at this time.

Abstract

Os autores buscam treinar redes neurais recorrentes para mapear sequências de entrada em sequências de saída, para aplicações em reconhecimento ou produção de sequências. Os resultados são apresentados mostrando que aprender dependências de longo prazo em tais redes recorrentes usando descida do gradiente é uma tarefa muito difícil. É demonstrado como essa dificuldade surge ao prender robustamente bits de informação com certos atratores. As derivadas da saída no tempo t em relação às ativações das unidades no tempo zero tendem rapidamente a zero à medida que t aumenta para a maioria dos valores de entrada. Nessa situação, técnicas simples de descida do gradiente parecem inadequadas. A consideração de métodos alternativos de otimização e arquiteturas é sugerida.

Perguntar à IA

Bookmark