What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Inferência LLM Distribuída em Dispositivos com Eficiência de Comunicação Sobre Redes Sem Fio

Key Points

A estrutura proposta acelera a velocidade de inferência em até 5x, enquanto melhora a precisão em dispositivos de borda com recursos limitados.
Os resultados indicam desempenho melhorado ao utilizar paralelismo de tensores e mitigar o overhead de comunicação por meio de métodos inovadores.
A estrutura emprega um algoritmo de otimização em duas etapas para resolver problemas não convexos complexos, garantindo fortes propriedades de convergência.
Os resultados de simulação demonstram vantagens significativas sobre benchmarks existentes na inferência colaborativa entre vários dispositivos.

Abstract

Modelos de linguagem grandes (LLMs) demonstraram sucesso notável em várias áreas de aplicação, mas seus enormes tamanhos e demandas computacionais apresentam desafios significativos para a implementação em dispositivos de borda com recursos limitados. Para abordar essa questão, propomos uma nova estrutura de inferência LLM em dispositivos distribuídos que aproveita o paralelismo de tensores para particionar os tensores da rede neural (por exemplo, matrizes de pesos) de um LLM entre vários dispositivos de borda para inferência colaborativa. Um desafio chave no paralelismo de tensores são as frequentes operações all-reduce para agregar as saídas das camadas intermediárias entre os dispositivos participantes, o que acarreta um overhead de comunicação significativo. Para aliviar esse gargalo, propomos uma abordagem de computação over-the-air (AirComp) que aproveita a propriedade de superposição analógica dos canais de múltiplos acessos sem fio para realizar etapas all-reduce rapidamente. Para utilizar as capacidades computacionais heterogêneas dos dispositivos de borda e mitigar distorções de comunicação, investigamos um problema conjunto de atribuição de modelo e otimização de transceptores para minimizar o erro médio de transmissão. O problema resultante de otimização estocástica não convexo em escalas de tempo mistas é intratável, e propomos um algoritmo eficiente de duas etapas para resolvê-lo. Além disso, provamos que o algoritmo proposto converge quase certamente para um ponto estacionário do problema original. Resultados de simulação abrangentes mostrarão que a estrutura proposta supera os esquemas de referência existentes, alcançando uma aceleração de velocidade de inferência de até 5x e melhorando a precisão da inferência.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper