Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) ont suscité une nouvelle vague d'applications d'IA interactives dans de nombreux domaines. Cependant, servir efficacement les demandes d'inférence des LLM est un défi en raison de leurs temps d'exécution imprévisibles résultant de la nature autorégressive des modèles génératifs. Les systèmes de service LLM existants exploitent une planification de type premier arrivé, premier servi (FCFS), souffrant de problèmes de blocage en tête de ligne. Pour traiter la nature non déterministe des LLM et permettre un service interactif efficace, nous présentons un planificateur spéculatif de plus court travail d'abord (SSJF) qui utilise un modèle proxy léger pour prédire les longueurs de séquence de sortie des LLM. Notre mise en œuvre open-source de SSJF ne nécessite pas de modifications de la gestion de la mémoire ou des stratégies de regroupement. Les évaluations sur des ensembles de données réels et des traces de charge de travail de production montrent que SSJF réduit les temps de completion moyens des tâches de 30,5 à 39,6 % et augmente le débit de 2,2 à 3,6 fois par rapport aux planificateurs FCFS, à travers des paramètres de non-batch, de batch dynamique et de batch continu.
Qiu et al. (Ven,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: