Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 뛰어난 성능을 보여주었으며, 조직들은 챗, 프로그래밍, 검색과 같은 사용 사례에 맞춰 다양한 크기의 LLM을 엔드포인트로 서비스하기 위해 경쟁하고 있습니다. 그러나 LLM의 인기도가 다양하기 때문에 여러 LLM을 효율적으로 서비스하는 것은 기존 접근법에 큰 도전을 안겨줍니다. 본 논문에서는 효율적인 다중 LLM 서비스용 유연한 시공간 다중화 시스템인 MuxServe를 제안합니다. 핵심 인사이트는 LLM의 인기도를 고려하여 메모리 자원을 다중화하기 위해 LLM을 공동 배치하고, 프리필 및 디코딩 단계의 특성을 활용하여 계산 자원을 다중화하기 위해 분리 및 유연하게 공동 배치하는 것입니다. MuxServe는 다중화 문제를 공식화하고, 최적의 공동 배치 및 최대 활용도를 식별하기 위한 새로운 배치 알고리즘과 적응형 배치 스케줄링 전략을 제안합니다. 또한 유연하고 효율적인 다중화를 가능하게 하는 통합 리소스 관리자를 설계하였습니다. 평가 결과 MuxServe는 최대 1.8배 더 높은 처리량을 달성하거나 99% SLO 달성 내에서 2.9배 더 많은 요청을 처리할 수 있음을 보여줍니다.
Duan 등(화요일,)이 이 질문을 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: