Key points are not available for this paper at this time.
Escalar grandes modelos com longas sequências em aplicações como geração de linguagem, geração de vídeo e tarefas multimodais requer paralelismo de sequência eficiente. No entanto, os métodos de paralelismo de sequência existentes assumem uma única dimensão de sequência e não conseguem se adaptar às arquiteturas de transformers multi-dimensionais que realizam cálculos de atenção em diferentes dimensões. Este artigo introduz o Paralelismo de Sequência Dinâmica (DSP), uma abordagem novadora para possibilitar paralelismo de sequência eficiente para modelos de transformers multi-dimensionais. A ideia principal é alternar dinamicamente a dimensão do paralelismo de acordo com a fase de computação atual, aproveitando as características potenciais da atenção multi-dimensional. Essa alternância dinâmica de dimensões permite um paralelismo de sequência com mínima sobrecarga de comunicação em comparação à aplicação do paralelismo tradicional unidimensional em modelos multi-dimensionais. Experimentos mostram que o DSP melhora a taxa de transferência de ponta a ponta em 42,0% a 216,8% em relação aos métodos de paralelismo de sequência anteriores.
Zhao et al. (Sex,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: