May 19, 2014Open Access

Sobre o problema do ponto de sela para otimização não convexa

Key Points

Key points are not available for this paper at this time.

Abstract

Um desafio central para muitos campos da ciência e engenharia envolve minimizar funções de erro não convexas em espaços contínuos e de alta dimensão. Métodos de descida do gradiente ou quasi-Newton são quase universalmente utilizados para realizar tais minimizações, e muitas vezes se pensa que uma das principais fontes de dificuldade para a capacidade desses métodos locais de encontrar o mínimo global é a proliferação de mínimos locais com erros muito maiores do que o mínimo global. Aqui argumentamos, com base em resultados da física estatística, teoria de matrizes aleatórias e teoria de redes neurais, que uma dificuldade mais profunda e profunda origina-se da proliferação de pontos de sela, e não de mínimos locais, especialmente em problemas de alta dimensão de interesse prático. Esses pontos de sela estão rodeados por platôs de alta erro que podem desacelerar dramaticamente o aprendizado, e dão a impressão ilusória da existência de um mínimo local. Motivados por esses argumentos, propomos um novo algoritmo, o método de Newton sem sela, que pode escapar rapidamente de pontos de sela de alta dimensão, ao contrário dos métodos de descida do gradiente e quasi-Newton. Aplicamos este algoritmo ao treinamento de redes neurais profundas e fornecemos evidências numéricas preliminares de seu desempenho superior.

Bookmark

View Full Paper