Key points are not available for this paper at this time.
O gradiente estocástico descentralizado (SGD) atraiu considerável atenção recente devido ao seu potencial para escalar recursos computacionais, reduzir o tempo de treinamento e ajudar a proteger a privacidade do usuário em aprendizado de máquina. No entanto, os atrasos e a largura de banda limitada podem induzir atrasos computacionais/comunicacionais aleatórios, dificultando severamente o processo de aprendizado. Portanto, como acelerar o SGD assíncrono programando de forma eficiente múltiplos trabalhadores é uma questão importante. Neste artigo, uma estrutura unificada é apresentada para analisar e otimizar a convergência do SGD assíncrono com base em equações diferenciais atrasadas estocásticas (SDDEs) e na aproximação de Poisson das chegadas de gradiente agregadas. Em particular, apresentamos o tempo de execução e a obsolescência do SGD distribuído sem a suposição de ausência de memória nos tempos de computação. Dada a taxa de aprendizado, revelamos o coeficiente de amortecimento relevante da SDDE e suas estatísticas de atraso, como funções do número de clientes ativados, do limite de obsolescência, dos autovalores da matriz Hessiana da função objetivo e do atraso computacional/comunicacional geral. A SDDE formulada nos permite apresentar tanto a condição de convergência do SGD distribuído quanto sua velocidade, calculando suas raízes características, otimizando assim as políticas de programação para SGD assíncrono/desencadeado por eventos. É interessante observar que aumentar o número de trabalhadores ativados não acelera necessariamente o SGD distribuído devido à obsolescência. Além disso, um pequeno grau de obsolescência não necessariamente retarda a convergência, enquanto um grande grau de obsolescência resultará na divergência do SGD distribuído. Resultados numéricos demonstram o potencial de nossa estrutura SDDE, mesmo em tarefas de aprendizado complexas com funções objetivo não convexas.
Yu et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: