Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grandes (LLMs) tienen un enorme potencial para abordar numerosos desafíos del mundo real, sin embargo, suelen demandar recursos computacionales y memoria significativos. Implementar LLMs en un dispositivo de hardware con recursos limitados y capacidad de memoria restringida presenta desafíos considerables. La computación distribuida surge como una estrategia prevalente para mitigar las limitaciones de memoria de un solo nodo y acelerar el rendimiento de la inferencia de LLM. Para reducir la carga de las limitaciones de hardware, propusimos una solución eficiente de optimización de inferencia distribuida para LLMs en CPUs. Realizamos experimentos con la solución propuesta en procesadores Intel Xeon escalables de 5ª generación, y el resultado muestra que el tiempo por token de salida para el LLM con 72B de parámetros es de 140 ms/token, mucho más rápido que la velocidad media de lectura humana de aproximadamente 200 ms por token.
He et al. (Thu,) estudiaron esta cuestión.