Key points are not available for this paper at this time.
Nos últimos anos, assistimos ao florescimento de modelos de redes neurais profundas em grande escala com números de parâmetros cada vez maiores. O treinamento de tais modelos em grande escala geralmente requer recursos massivos de memória e computação que superam os de uma única GPU, necessitando de treinamento distribuído. À medida que o desempenho da GPU evoluiu rapidamente nos últimos anos, o tempo de computação diminuiu, aumentando assim a proporção de comunicação no tempo total de treinamento. Portanto, otimizar a comunicação para treinamento distribuído tornou-se uma questão urgente. Neste artigo, apresentamos brevemente a arquitetura geral do treinamento de redes neurais profundas distribuídas e analisamos as relações entre Estratégia de Paralelização, Biblioteca de Comunicação Coletiva e Rede sob a perspectiva da otimização da comunicação, formando um paradigma de três camadas. Em seguida, revisamos os avanços representativos atuais da pesquisa com esse paradigma de três camadas. Descobrimos que as camadas no paradigma atual de três camadas são relativamente independentes, mas existe um rico espaço de design para otimização colaborativa entre camadas em cenários de treinamento distribuído. Portanto, defendemos ainda um paradigma de cinco camadas eficiente em comunicação, destacando oportunidades para designs colaborativos e esperamos pelas perspectivas dos designs de colaboração "Vertical", "Horizontal", "Intra-Inter" e "Host-Net". Esperamos que este artigo possa lançar alguma luz sobre futuras pesquisas em otimização de comunicação para treinamento distribuído.
Wei et al. (Ter,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: