March 29, 2024Open Access

Zu umweltfreundlicheren LLMs: Energieeffizienz in den Vordergrund der LLM-Inferenz rücken

Key Points

Key points are not available for this paper at this time.

Abstract

Mit der allgegenwärtigen Nutzung moderner großer Sprachmodelle (LLMs) in verschiedenen Branchen wächst auch der Inferenzbetrieb für diese Modelle stetig. Angesichts der hohen Rechen- und Speicheranforderungen moderner LLMs werden immer mehr erstklassige GPUs eingesetzt, um diese Modelle zu bedienen. Die Verfügbarkeit von Energie ist zur größten Herausforderung für die Erweiterung von Rechenzentren zur Bedienung dieser Modelle geworden. In diesem Papier stellen wir die Kompromisse dar, die entstehen, wenn Energieeffizienz zum primären Ziel der LLM-Bereitstellung unter Performance-SLOs gemacht wird. Wir zeigen, dass je nach Eingaben, Modell und Service-Level-Agreements verschiedene Stellschrauben für den LLM-Inferenzanbieter zur Verfügung stehen, um energieeffizient zu sein. Wir charakterisieren die Auswirkungen dieser Stellschrauben auf Latenz, Durchsatz sowie Energieverbrauch. Durch die Untersuchung dieser Kompromisse bieten wir wertvolle Einblicke in die Optimierung der Energienutzung, ohne die Leistung zu beeinträchtigen, und ebnen somit den Weg für eine nachhaltige und kosteneffektive LLM-Bereitstellung in Rechenzentrumumgebungen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper