Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen gezeigt, und Organisationen rennen darum, LLMs unterschiedlicher Größe als Endpunkte für Anwendungsfälle wie Chat, Programmierung und Suche bereitzustellen. Das effiziente Servieren mehrerer LLMs stellt jedoch bedeutende Herausforderungen für bestehende Ansätze dar, aufgrund der unterschiedlichen Popularität der LLMs. In diesem Paper präsentieren wir MuxServe, ein flexibles raum-zeitliches Multiplexing-System für effizientes Serving mehrerer LLMs. Die zentrale Erkenntnis dahinter besteht darin, LLMs unter Berücksichtigung ihrer Popularität zu kollokieren, um Speicherressourcen zu multiplexen, und die Eigenschaften von Prefill- und Dekodierungsphasen zu nutzen, um sie flexibel zu trennen und zu kollokieren, um Rechenressourcen zu multiplexen. MuxServe formuliert das Multiplexing-Problem formal und schlägt einen neuartigen Platzierungsalgorithmus sowie eine adaptive Batch-Planungsstrategie vor, um optimale Kollokationen zu identifizieren und die Auslastung zu maximieren. MuxServe entwirft einen einheitlichen Ressourcenmanager, um flexibles und effizientes Multiplexing zu ermöglichen. Evaluierungsergebnisse zeigen, dass MuxServe eine bis zu 1,8-fache höhere Durchsatzrate erreichen oder 2,9 mehr Anfragen bei 99\% SLO-Erreichung verarbeiten kann.
Duan et al. (Di,) haben diese Frage untersucht.