Key points are not available for this paper at this time.
Com as escalas cada vez maiores dos modelos de linguagem grande (LLMs) (causais), a eficiência da inferência surge como uma das principais preocupações junto com a melhora no desempenho. Em contraste com a pegada de memória, o gargalo de latência parece ser de maior importância, já que podem haver bilhões de requisições a um LLM (por exemplo, GPT-4) por dia. O gargalo se deve principalmente à natureza autoregressiva dos LLMs, onde os tokens só podem ser gerados sequencialmente durante a decodificação. Para aliviar o gargalo, a ideia de execução especulativa, que se origina no campo da arquitetura de computadores, é introduzida na decodificação de LLMs em um estilo de rascunho e verificação. Sob este regime, uma sequência de tokens será rascunhada em um ritmo rápido utilizando algumas heurísticas, e então os tokens serão verificados em paralelo pelo LLM. À medida que a custosa inferência sequencial é paralelizada, a velocidade de decodificação do LLM pode ser significativamente aumentada. Impulsionada pelo sucesso dos LLMs nos últimos anos, uma literatura crescente nessa direção surgiu. No entanto, falta uma revisão de posição para resumir o panorama atual e traçar um roteiro para o desenvolvimento futuro dessa área promissora. Para atender a essa demanda, apresentamos o primeiro artigo de revisão que analisa e unifica a literatura da execução especulativa em LLMs (por exemplo, decodificação paralela por blocos, decodificação especulativa, etc.) em uma estrutura abrangente e uma taxonomia sistemática. Com base na taxonomia, apresentamos uma revisão crítica e uma análise comparativa das artes atuais. Finalmente, destacamos vários desafios-chave e direções futuras para desenvolver ainda mais a área.
Zhang et al. (Terça,) estudaram essa questão.