August 10, 2024Open Access

Combinaison de l'approximation de poids, du partage et du réentraînement pour la compression des modèles de réseaux de neurones

Key Points

Key points are not available for this paper at this time.

Abstract

La compression des modèles de réseaux de neurones est très importante pour réaliser le déploiement des modèles en fonction de la mémoire et du stockage disponibles dans différents systèmes informatiques. En général, la quête continue d'une précision plus élevée dans ces modèles augmente leur taille et leur complexité, rendant leur déploiement sur des environnements informatiques à ressources limitées difficile. Cet article propose divers algorithmes de compression des modèles en exploitant les caractéristiques des poids et effectue une étude approfondie de leurs performances. Les algorithmes impliquent la manipulation des exposants et des mantisses dans les représentations en virgule flottante des poids. De plus, nous présentons également une méthode de réentraînement qui utilise les algorithmes proposés pour réduire encore la taille des modèles pré-entraînés. Les résultats présentés dans cet article concernent principalement le format en virgule flottante BFloat16. Les algorithmes de manipulation des poids proposés permettent d'économiser au moins 20 % de mémoire sur des modèles de classification d'images à la pointe de la technologie avec une perte de précision très mineure. Cette perte est compensée par la méthode de réentraînement qui permet d'économiser au moins 30 % de mémoire, avec des économies potentielles de mémoire allant jusqu'à 43 %. Nous comparons les performances des méthodes proposées aux techniques de compression de modèles à la pointe de la technologie en termes de précision, d'économies de mémoire, de temps d'inférence et d'énergie.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper