Los puntos clave no están disponibles para este artículo en este momento.
Con el rápido crecimiento de los modelos de lenguaje grandes (LLMs), hay una demanda creciente de memoria y computación en los LLMs. Los recientes esfuerzos en la poda post-entrenamiento de los LLMs buscan reducir el tamaño del modelo y los requerimientos de computación, sin embargo, el rendimiento sigue siendo subóptimo. En este artículo, presentamos una solución plug-and-play para la poda post-entrenamiento de los LLMs. La solución propuesta tiene dos componentes innovadores: 1) Importancia Relativa y Activaciones (RIA), una nueva métrica de poda que considera conjuntamente el peso y las activaciones de manera eficiente en los LLMs; y 2) Permutación de Canales, un nuevo enfoque para preservar al máximo los pesos importantes bajo escasez N:M. Los dos componentes propuestos se pueden combinar fácilmente para mejorar aún más la poda semi-estructurada N:M de los LLMs. Nuestros experimentos empíricos muestran que RIA por sí sola ya puede superar todos los métodos de poda post-entrenamiento existentes en LLMs prevalentes, p. ej., LLaMA de 7B a 65B. Además, la poda semi-estructurada N:M con permutación de canales puede incluso superar al LLaMA2-70B original en tareas de cero disparos, junto con una aceleración práctica en hardware específico. Nuestro código está disponible en: https://github.com/biomedical-cybernetics/Relative-importance-and-activation-pruning.
Zhang et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: