Los puntos clave no están disponibles para este artículo en este momento.
El crecimiento rápido del tamaño de los grandes modelos ha superado con creces el de la memoria de GPU. Para cerrar esta brecha, inspirados por la relación sucinta entre genotipo y fenotipo, convertimos el problema de compresión de modelos en el de representación de parámetros para proponer la llamada hipercompresión. La hipercompresión utiliza una hipers función para representar los parámetros de la red objetivo y, notablemente, aquí la hipers función está diseñada según la teoría ergódica que se relaciona con un problema: si un sistema dinámico de baja dimensión puede llenar eventualmente el espacio de alta dimensión. Empíricamente, la hipercompresión propuesta disfruta de las siguientes ventajas: 1) Proporción de compresión preferible; 2) Sin reentrenamiento posterior; 3) Tiempo de inferencia asequible; y 4) Tiempo de compresión corto. Comprime LLaMA2-7B en una hora y logra un rendimiento cercano a la cuantización int4, sin reentrenamiento y con una caída de rendimiento de menos del 1\%. Nuestro trabajo tiene el potencial de revitalizar el campo de la compresión de modelos, hacia una armonía entre la ley de escalado y la estancación de la actualización de hardware.
Fan et al. (Sáb,) estudiaron esta cuestión.