June 19, 2024Open Access

Scheibenebene-Planung für hochgradige Durchsatz- und Lastausgeglichene LLM-Bereitstellung

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) generieren Text schrittweise Token für Token, wobei der Speicherverbrauch mit der Länge der generierten Tokensequenzen zunimmt. Die Unvorhersehbarkeit der Generierungslängen erschwert es, die Zeit und den Speicherbedarf zur Bearbeitung von Anfragen zu schätzen, was eine Herausforderung für eine effektive Anfragenplanung darstellt. Herkömmliche Sequenzeebene-Planung (SLS) bearbeitet Anfragen nach dem First-Come-First-Served (FCFS)-Prinzip mit statischem Batching, bei dem Anfragen mit kurzen Generierungslängen verzögert werden, bis die mit langen abgeschlossen sind, was die Rechenressourceneffizienz beeinträchtigt. Zudem werden, um Out-of-Memory (OOM)-Fehler zu vermeiden, bei SLS Anfragen mit einer kleinen Batchgröße gebündelt, was den Durchsatz einschränkt. Kürzlich vorgeschlagene Iterationsebene-Planung (ILS) verbessert die Rechenressourceneffizienz durch kontinuierliches Batching, um abgeschlossene Anfragen zeitgerecht zurückzugeben und neue Anfragen dynamisch zur Bearbeitung hinzuzufügen. Viele ILS-Planer begrenzen jedoch die Anzahl der parallel bearbeiteten Anfragen, um OOM-Fehler zu vermeiden, während sie eine schnelle Inferenzgeschwindigkeit erzielen, was den Durchsatz beeinträchtigt. Darüber hinaus scheitern bestehende SLS- und ILS-Planer daran, die Arbeitslast über mehrere bereitgestellte LLM-Instanzen hinweg auszugleichen. Um diese Herausforderungen anzugehen, schlagen wir die Scheibenebene-Planung (SCLS) vor. Durch das Aufteilen des vordefinierten maximalen Generierungslängenlimits in Scheiben und die serverseitige Bearbeitung von Batches scheibenweise bietet es einen präzisen Bereich für die Bearbeitungszeit und den Speicherverbrauch für gebündelte Anfragen und legt die Grundlage für eine effektive Planung. Experimente bestätigen, dass SCLS im Vergleich zu SLS- und ILS-Planern den Durchsatz um bis zu 315,8 % steigern und die Lastungleichgewicht mit den vorgeschlagenen Batching- und Offloading-Algorithmen erheblich mindern kann.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper