June 1, 2024

Convergência de Esquemas de Descida de Gradiente Estocástico para Paisagens de Łojasiewicz

Key Points

Key points are not available for this paper at this time.

Abstract

Neste artigo, consideramos a convergência de esquemas de descida de gradiente estocástico (SGD), incluindo a descida de gradiente estocástico com momentum (MSGD), sob suposições fracas sobre a paisagem subjacente. Mais explicitamente, mostramos que, no evento em que o SGD permanece limitado, temos a convergência do SGD se houver apenas um número contável de pontos críticos ou se a função objetivo satisfizer as desigualdades de Lojasiewicz em torno de todos os níveis críticos, como fazem todas as funções analíticas. Em particular, mostramos que para redes neurais com funções de ativação analíticas, como softplus, sigmoid e a tangente hiperbólica, o SGD converge no evento de permanecer limitado, se as variáveis aleatórias que modelam o sinal e a resposta no treinamento tiverem suporte compacto.

Convergência de Esquemas de Descida de Gradiente Estocástico para Paisagens de Łojasiewicz

Key Points

Abstract

Cite This Study

Also Consider

Also Consider