Key points are not available for this paper at this time.
Mit der allgegenwärtigen Nutzung moderner großer Sprachmodelle (LLMs) in verschiedenen Branchen wächst auch der Inferenzbetrieb für diese Modelle stetig. Angesichts der hohen Rechen- und Speicheranforderungen moderner LLMs werden immer mehr erstklassige GPUs eingesetzt, um diese Modelle zu bedienen. Die Verfügbarkeit von Energie ist zur größten Herausforderung für die Erweiterung von Rechenzentren zur Bedienung dieser Modelle geworden. In diesem Papier stellen wir die Kompromisse dar, die entstehen, wenn Energieeffizienz zum primären Ziel der LLM-Bereitstellung unter Performance-SLOs gemacht wird. Wir zeigen, dass je nach Eingaben, Modell und Service-Level-Agreements verschiedene Stellschrauben für den LLM-Inferenzanbieter zur Verfügung stehen, um energieeffizient zu sein. Wir charakterisieren die Auswirkungen dieser Stellschrauben auf Latenz, Durchsatz sowie Energieverbrauch. Durch die Untersuchung dieser Kompromisse bieten wir wertvolle Einblicke in die Optimierung der Energienutzung, ohne die Leistung zu beeinträchtigen, und ebnen somit den Weg für eine nachhaltige und kosteneffektive LLM-Bereitstellung in Rechenzentrumumgebungen.
Stojkovic et al. (Fr,) haben diese Fragestellung untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: