May 27, 2024Open Access

Plug-and-Play: Un Método Eficiente de Poda Post-entrenamiento para Modelos de Lenguaje Grandes

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Con el rápido crecimiento de los modelos de lenguaje grandes (LLMs), hay una demanda creciente de memoria y computación en los LLMs. Los recientes esfuerzos en la poda post-entrenamiento de los LLMs buscan reducir el tamaño del modelo y los requerimientos de computación, sin embargo, el rendimiento sigue siendo subóptimo. En este artículo, presentamos una solución plug-and-play para la poda post-entrenamiento de los LLMs. La solución propuesta tiene dos componentes innovadores: 1) Importancia Relativa y Activaciones (RIA), una nueva métrica de poda que considera conjuntamente el peso y las activaciones de manera eficiente en los LLMs; y 2) Permutación de Canales, un nuevo enfoque para preservar al máximo los pesos importantes bajo escasez N:M. Los dos componentes propuestos se pueden combinar fácilmente para mejorar aún más la poda semi-estructurada N:M de los LLMs. Nuestros experimentos empíricos muestran que RIA por sí sola ya puede superar todos los métodos de poda post-entrenamiento existentes en LLMs prevalentes, p. ej., LLaMA de 7B a 65B. Además, la poda semi-estructurada N:M con permutación de canales puede incluso superar al LLaMA2-70B original en tareas de cero disparos, junto con una aceleración práctica en hardware específico. Nuestro código está disponible en: https://github.com/biomedical-cybernetics/Relative-importance-and-activation-pruning.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo