March 15, 2024Open Access

DSP: Paralelismo de Sequência Dinâmica para Transformers Multi-Dimensionais

Key Points

Key points are not available for this paper at this time.

Abstract

Escalar grandes modelos com longas sequências em aplicações como geração de linguagem, geração de vídeo e tarefas multimodais requer paralelismo de sequência eficiente. No entanto, os métodos de paralelismo de sequência existentes assumem uma única dimensão de sequência e não conseguem se adaptar às arquiteturas de transformers multi-dimensionais que realizam cálculos de atenção em diferentes dimensões. Este artigo introduz o Paralelismo de Sequência Dinâmica (DSP), uma abordagem novadora para possibilitar paralelismo de sequência eficiente para modelos de transformers multi-dimensionais. A ideia principal é alternar dinamicamente a dimensão do paralelismo de acordo com a fase de computação atual, aproveitando as características potenciais da atenção multi-dimensional. Essa alternância dinâmica de dimensões permite um paralelismo de sequência com mínima sobrecarga de comunicação em comparação à aplicação do paralelismo tradicional unidimensional em modelos multi-dimensionais. Experimentos mostram que o DSP melhora a taxa de transferência de ponta a ponta em 42,0% a 216,8% em relação aos métodos de paralelismo de sequência anteriores.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper