April 25, 2024Open Access

Los Clústeres Híbridos Heterogéneos Pueden Reducir el Consumo de Energía de las Cargas de Trabajo de Inferencia de LLM

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Tanto el entrenamiento como el uso de Modelos de Lenguaje Grande (LLMs) requieren grandes cantidades de energía. Su creciente popularidad, por lo tanto, plantea preocupaciones críticas sobre la eficiencia energética y la sostenibilidad de los centros de datos que los albergan. Este documento aborda el desafío de reducir el consumo de energía en los centros de datos que ejecutan LLMs. Proponemos un modelo de centro de datos híbrido que utiliza un marco de programación basado en costos para asignar dinámicamente tareas de LLM a aceleradores de hardware que difieren en su eficiencia energética y capacidades computacionales. Específicamente, nuestra estrategia consciente de la carga de trabajo determina si las tareas se procesan en procesadores eficientes en energía o en GPUs de alto rendimiento según el número de tokens de entrada y salida en una consulta. Nuestro análisis de un conjunto de datos representativo de LLM encuentra que esta estrategia híbrida puede reducir el consumo de energía de CPU+GPU en un 7.5% en comparación con una línea base que no tiene en cuenta la carga de trabajo.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo