Der Aufstieg großer Sprachmodelle (LLMs) hat in verschiedenen Bereichen neue Möglichkeiten geschaffen, jedoch auch erhebliche Herausforderungen im Ressourc管理 eingeführt. Aktuelle LLM-Bereitstellungssysteme stehen vor einer grundlegenden Spannung: die Erfüllung von Bereitstellungsanforderungen mit begrenzten Ressourcen zu balancieren, während sie sich an unvorhersehbare Verkehrsströme anpassen. Statische Bereitstellungen führen zu suboptimaler Ressourcennutzung und Leistungsverschlechterung unter dynamischen Lasten. Darüber hinaus behindert die hohe Kosten für die Anpassung von Instanzen das dynamische Scaling, was das wahre Potenzial einer effizienten LLM-Bereitstellung einschränkt. Um dies zu adressieren, schlagen wir CoCoServe vor, ein elastisches System, das dynamisches und feingranulares Scaling erleichtert. Die Hauptinnovation besteht in den modulbasierten Operationen für die Replikation und Migration von LLM-Modulen, wie z. B. Decoder-Schichten und Projektionen. Durch eine umfassende Analyse der damit verbundenen Kompromisse entwickeln wir einen Auto-Scaling-Mechanismus, der dynamisch die modulbezogene Ressourcenzuteilung und Leistungsoptimierung regelt und eine kosteneffizientere Bereitstellung von LLMs ermöglicht. Unsere Bewertung zeigt, dass die von CoCoServe verwendeten Scaling-Operationen hervorragende Skalierbarkeit aufweisen und die Kosten um 46 % senken können, während die Verfügbarkeit erhalten bleibt. Im Vergleich zu modernen LLM-Bereitstellungssystemen (z. B. Hugging Face Transformers und vLLM) reduziert unser Ansatz die Latenz um 14 %–75 % und erreicht im Durchschnitt einen Durchsatz von 1,16×–4× über verschiedene Modellgrößen und Arbeitslasten hinweg.
Wu et al. (Do,) untersuchten diese Frage.