Les grands modèles de langage ont été largement adoptés dans diverses tâches, mais leur nature auto-régressive de génération conduit souvent à une utilisation inefficace des ressources lors de l'inférence. Bien que le traitement par lots soit couramment utilisé pour augmenter le débit, les gains de performance plafonnent au-delà d'une certaine taille de lot, en particulier avec les modèles plus petits, un phénomène que la littérature existante explique généralement par un passage à un régime limité par le calcul. Dans cet article, à travers une analyse approfondie au niveau GPU, nous révélons que l'inférence à grand lot reste limitée par la mémoire, la plupart des capacités de calcul GPU étant sous-utilisées en raison de la saturation de la bande passante DRAM comme principal goulot d’étranglement. Pour y remédier, nous proposons un Conseiller de Configuration de Lot (BCA) qui optimise l’allocation mémoire, réduisant les besoins en mémoire GPU avec un impact minimal sur le débit. La mémoire libérée et les capacités de calcul GPU sous-utilisées peuvent alors être exploitées par des charges de travail concurrentes. Plus précisément, nous utilisons la réplication de modèle pour améliorer le débit de service et l’utilisation GPU. Nos résultats remettent en question les hypothèses conventionnelles sur l'inférence LLM, offrant de nouvelles perspectives et stratégies pratiques pour améliorer l'utilisation des ressources, notamment pour les modèles de langage plus petits. Le code est disponible publiquement sur https://github.com/FerranAgulloLopez/vLLMBatchingMemoryGap.
Recasens et al. (mar.) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: