Key points are not available for this paper at this time.
A implementação de inferências de grandes modelos de linguagem (LLMs) em dispositivos móveis é eficiente em termos de custo para as empresas e aborda bem a preocupação com a privacidade dos usuários. No entanto, a capacidade de computação limitada e as restrições de memória dos dispositivos móveis dificultam sua implementação prática. Trabalhos anteriores se esforçam para expandir o tamanho do modelo para melhor desempenho de precisão, enquanto há uma falta de compreensão sistemática dos LLMs "pequenos" com menos de 10 bilhões que já são viáveis para os dispositivos comerciais atuais. Para revelar melhor o cenário atual dos LLMs em dispositivos móveis, realizamos um estudo de medição abrangente, implementando 22 modelos em 4 dispositivos móveis. Nossas medições focam em precisão, latência de inferência e uso de memória em vários comprimentos de entrada, dispositivos e motores de execução. As observações das medições nos indicam direções promissoras para a implementação eficiente de LLMs em dispositivos móveis.
Li et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: