Key points are not available for this paper at this time.
모바일 기기에 대형 언어 모델(LLMs) 추론을 배포하는 것은 기업에 비용 효율적이며 사용자 개인정보 보호 문제를 잘 해결합니다. 그러나 모바일 기기의 제한된 계산 능력과 메모리 제약은 실제 배포를 방해합니다. 이전 연구는 더 나은 정확도를 위해 모델 크기를 확장하려고 했지만, 현재의 상품 기기에 이미 적합한 '작은' 100억 이하 LLM에 대한 체계적인 이해가 부족합니다. 모바일 기기에서 LLM의 현재 상황을 더 잘 밝히기 위해, 우리는 4개의 모바일 기기에 걸쳐 22개의 모델을 배포하는 포괄적인 측정 연구를 수행했습니다. 우리의 측정은 다양한 입력 길이, 장치 및 실행 엔진에 걸쳐 정확성, 추론 대기 시간 및 메모리 공간 사용에 중점을 두었습니다. 측정에서의 관찰은 모바일 기기에서 효율적인 LLM 배포를 위한 유망한 방향으로 이끌어 줍니다.
Li et al. (Mon,)는 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: