Key points are not available for this paper at this time.
Neste artigo, consideramos a convergência de esquemas de descida de gradiente estocástico (SGD), incluindo a descida de gradiente estocástico com momentum (MSGD), sob suposições fracas sobre a paisagem subjacente. Mais explicitamente, mostramos que, no evento em que o SGD permanece limitado, temos a convergência do SGD se houver apenas um número contável de pontos críticos ou se a função objetivo satisfizer as desigualdades de Lojasiewicz em torno de todos os níveis críticos, como fazem todas as funções analíticas. Em particular, mostramos que para redes neurais com funções de ativação analíticas, como softplus, sigmoid e a tangente hiperbólica, o SGD converge no evento de permanecer limitado, se as variáveis aleatórias que modelam o sinal e a resposta no treinamento tiverem suporte compacto.
null et al. (Sat,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: