What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

Attention à la limite mémoire : révélation des goulots d'étranglement GPU dans l'inférence LLM à grand lot

Key Points

L'inférence à grand lot reste limitée par la mémoire, ce qui restreint l'utilisation des ressources GPU.
La saturation de la bande passante DRAM apparaît comme le principal goulot d’étranglement des gains de performance.
Un Conseiller de Configuration de Lot optimise l’allocation mémoire, améliorant le débit global.
L’utilisation de la réplication de modèle peut augmenter le débit de service et l’efficacité GPU.

Abstract

Les grands modèles de langage ont été largement adoptés dans diverses tâches, mais leur nature auto-régressive de génération conduit souvent à une utilisation inefficace des ressources lors de l'inférence. Bien que le traitement par lots soit couramment utilisé pour augmenter le débit, les gains de performance plafonnent au-delà d'une certaine taille de lot, en particulier avec les modèles plus petits, un phénomène que la littérature existante explique généralement par un passage à un régime limité par le calcul. Dans cet article, à travers une analyse approfondie au niveau GPU, nous révélons que l'inférence à grand lot reste limitée par la mémoire, la plupart des capacités de calcul GPU étant sous-utilisées en raison de la saturation de la bande passante DRAM comme principal goulot d’étranglement. Pour y remédier, nous proposons un Conseiller de Configuration de Lot (BCA) qui optimise l’allocation mémoire, réduisant les besoins en mémoire GPU avec un impact minimal sur le débit. La mémoire libérée et les capacités de calcul GPU sous-utilisées peuvent alors être exploitées par des charges de travail concurrentes. Plus précisément, nous utilisons la réplication de modèle pour améliorer le débit de service et l’utilisation GPU. Nos résultats remettent en question les hypothèses conventionnelles sur l'inférence LLM, offrant de nouvelles perspectives et stratégies pratiques pour améliorer l'utilisation des ressources, notamment pour les modèles de langage plus petits. Le code est disponible publiquement sur https://github.com/FerranAgulloLopez/vLLMBatchingMemoryGap.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper