Modelos de linguagem grandes (LLMs) demonstraram sucesso notável em várias áreas de aplicação, mas seus enormes tamanhos e demandas computacionais apresentam desafios significativos para a implementação em dispositivos de borda com recursos limitados. Para abordar essa questão, propomos uma nova estrutura de inferência LLM em dispositivos distribuídos que aproveita o paralelismo de tensores para particionar os tensores da rede neural (por exemplo, matrizes de pesos) de um LLM entre vários dispositivos de borda para inferência colaborativa. Um desafio chave no paralelismo de tensores são as frequentes operações all-reduce para agregar as saídas das camadas intermediárias entre os dispositivos participantes, o que acarreta um overhead de comunicação significativo. Para aliviar esse gargalo, propomos uma abordagem de computação over-the-air (AirComp) que aproveita a propriedade de superposição analógica dos canais de múltiplos acessos sem fio para realizar etapas all-reduce rapidamente. Para utilizar as capacidades computacionais heterogêneas dos dispositivos de borda e mitigar distorções de comunicação, investigamos um problema conjunto de atribuição de modelo e otimização de transceptores para minimizar o erro médio de transmissão. O problema resultante de otimização estocástica não convexo em escalas de tempo mistas é intratável, e propomos um algoritmo eficiente de duas etapas para resolvê-lo. Além disso, provamos que o algoritmo proposto converge quase certamente para um ponto estacionário do problema original. Resultados de simulação abrangentes mostrarão que a estrutura proposta supera os esquemas de referência existentes, alcançando uma aceleração de velocidade de inferência de até 5x e melhorando a precisão da inferência.
Zhang et al. (Qua,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: