Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grandes (LLMs) han demostrado un rendimiento excepcional en diversas tareas, como la summarización de texto, respuesta a preguntas textuales, etc. Si bien su rendimiento es impresionante, la huella computacional debido a su enorme cantidad de parámetros puede ser prohibitiva. Soluciones existentes como SparseGPT y Wanda intentan aliviar este problema a través de la poda de pesos. Sin embargo, su enfoque por capas resulta en una perturbación significativa en la salida del modelo y requiere una meticulosa afinación de hiperparámetros, como la tasa de poda, lo que puede afectar negativamente el rendimiento general del modelo. Para abordar esto, este artículo introduce una nueva técnica de poda de LLM llamada asignación de sparsity eficiente en parámetros por bloques (BESA) aplicando una pérdida de reconstrucción por bloques. En contraste con las técnicas típicas de poda por capas, BESA se caracteriza por dos atributos distintivos: i) apunta al error de poda total con respecto a bloques individuales del transformador, y ii) asigna sparsity específica de capa de manera diferenciable, lo que garantiza una reducción en la degradación del rendimiento después de la poda. Nuestros experimentos muestran que BESA alcanza un rendimiento de vanguardia, podando eficientemente LLMs como LLaMA1 y LLaMA2 con entre 7B y 70B parámetros en una sola GPU A100 en solo cinco horas. El código está disponible en https://github.com/OpenGVLab/LLMPrune-BESAhere.
Xu et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: