What type of study is this?

This is a Quantitative Study study.

October 17, 2025Open Access

Das Potenzial von feingranularer LLM-Bereitstellung durch dynamisches Modul-Scaling erschließen

Key Points

CoCoServe ermöglicht feingranulares Scaling von Ressourcen großer Sprachmodelle und verbessert die Kosteneffizienz.
Die Methode zeigt eine Kostenreduzierung von bis zu 46 %, während die Verfügbarkeit und Leistung des Systems erhalten bleibt.
Das Auto-Scaling passt die modulbezogene Ressourcenzuteilung dynamisch an und optimiert für variable Arbeitslasten.
Es erreicht Latenzreduzierungen von 14 %–75 % im Vergleich zu führenden großen Sprachmodell-Bereitstellungssystemen.

Abstract

Der Aufstieg großer Sprachmodelle (LLMs) hat in verschiedenen Bereichen neue Möglichkeiten geschaffen, jedoch auch erhebliche Herausforderungen im Ressourc管理 eingeführt. Aktuelle LLM-Bereitstellungssysteme stehen vor einer grundlegenden Spannung: die Erfüllung von Bereitstellungsanforderungen mit begrenzten Ressourcen zu balancieren, während sie sich an unvorhersehbare Verkehrsströme anpassen. Statische Bereitstellungen führen zu suboptimaler Ressourcennutzung und Leistungsverschlechterung unter dynamischen Lasten. Darüber hinaus behindert die hohe Kosten für die Anpassung von Instanzen das dynamische Scaling, was das wahre Potenzial einer effizienten LLM-Bereitstellung einschränkt. Um dies zu adressieren, schlagen wir CoCoServe vor, ein elastisches System, das dynamisches und feingranulares Scaling erleichtert. Die Hauptinnovation besteht in den modulbasierten Operationen für die Replikation und Migration von LLM-Modulen, wie z. B. Decoder-Schichten und Projektionen. Durch eine umfassende Analyse der damit verbundenen Kompromisse entwickeln wir einen Auto-Scaling-Mechanismus, der dynamisch die modulbezogene Ressourcenzuteilung und Leistungsoptimierung regelt und eine kosteneffizientere Bereitstellung von LLMs ermöglicht. Unsere Bewertung zeigt, dass die von CoCoServe verwendeten Scaling-Operationen hervorragende Skalierbarkeit aufweisen und die Kosten um 46 % senken können, während die Verfügbarkeit erhalten bleibt. Im Vergleich zu modernen LLM-Bereitstellungssystemen (z. B. Hugging Face Transformers und vLLM) reduziert unser Ansatz die Latenz um 14 %–75 % und erreicht im Durchschnitt einen Durchsatz von 1,16×–4× über verschiedene Modellgrößen und Arbeitslasten hinweg.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper