Key points are not available for this paper at this time.
Um desafio central para muitos campos da ciência e engenharia envolve minimizar funções de erro não convexas em espaços contínuos e de alta dimensão. Métodos de descida do gradiente ou quasi-Newton são quase universalmente utilizados para realizar tais minimizações, e muitas vezes se pensa que uma das principais fontes de dificuldade para a capacidade desses métodos locais de encontrar o mínimo global é a proliferação de mínimos locais com erros muito maiores do que o mínimo global. Aqui argumentamos, com base em resultados da física estatística, teoria de matrizes aleatórias e teoria de redes neurais, que uma dificuldade mais profunda e profunda origina-se da proliferação de pontos de sela, e não de mínimos locais, especialmente em problemas de alta dimensão de interesse prático. Esses pontos de sela estão rodeados por platôs de alta erro que podem desacelerar dramaticamente o aprendizado, e dão a impressão ilusória da existência de um mínimo local. Motivados por esses argumentos, propomos um novo algoritmo, o método de Newton sem sela, que pode escapar rapidamente de pontos de sela de alta dimensão, ao contrário dos métodos de descida do gradiente e quasi-Newton. Aplicamos este algoritmo ao treinamento de redes neurais profundas e fornecemos evidências numéricas preliminares de seu desempenho superior.
Pascanu et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: