Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grandes modernos (LLMs) han establecido un rendimiento de vanguardia a través de mejoras arquitectónicas, pero aún requieren un costo computacional significativo para la inferencia. En un esfuerzo por reducir el costo de la inferencia, la cuantización post-entrenamiento (PTQ) se ha convertido en un enfoque popular, cuantizando pesos y activaciones a una menor precisión, como INT8. En este artículo, revelamos los desafíos de la cuantización de activaciones en variantes de GLU, que son ampliamente utilizadas en las redes de avance (FFN) de los LLMs modernos, como la familia LLaMA. El problema es que errores de cuantización locales severos, causados por magnitudes excesivas de activación en las variantes de GLU, degradan significativamente el rendimiento del LLM cuantizado. Denotamos estas activaciones como picos de activación. Nuestras observaciones adicionales proporcionan un patrón sistemático de picos de activación: 1) Los picos de activación ocurren en la FFN de capas específicas, particularmente en las capas tempranas y tardías, 2) Los picos de activación están dedicados a un par de tokens, en lugar de ser compartidos a lo largo de una secuencia. Basado en nuestras observaciones, proponemos dos métodos empíricos, Módulo Sin Cuantización (QFeM) y Prefijo Sin Cuantización (QFeP), para aislar los picos de activación durante la cuantización. Nuestros extensos experimentos validan la efectividad de los métodos propuestos para la cuantización de activaciones, especialmente con un esquema de grano grueso, de los últimos LLMs con variantes de GLU, incluyendo LLaMA-2/3, Mistral, Mixtral, SOLAR y Gemma. En particular, nuestros métodos mejoran las técnicas actuales de alivio (por ejemplo, SmoothQuant) que no logran controlar los picos de activación. El código está disponible en https://github.com/onnoo/activation-spikes.
Yang et al. (Jue,) estudiaron esta cuestión.