Key points are not available for this paper at this time.
A compressão de modelos de redes neurais é muito importante para alcançar a implementação de modelos com base na memória e armazenamento disponíveis em diferentes sistemas computacionais. Geralmente, a busca contínua por maior precisão nesses modelos aumenta seu tamanho e complexidade, tornando desafiador implementá-los em ambientes computacionais com recursos limitados. Este artigo propõe vários algoritmos para compressão de modelos explorando características de peso e realiza um estudo aprofundado de seu desempenho. Os algoritmos envolvem a manipulação de expoentes e mantissa nas representações em ponto flutuante dos pesos. Além disso, também apresentamos um método de reaprendizado que utiliza os algoritmos propostos para reduzir ainda mais o tamanho dos modelos pré-treinados. Os resultados apresentados neste artigo são principalmente no formato de ponto flutuante BFloat16. Os algoritmos de manipulação de peso propostos economizam pelo menos 20% de memória em modelos de classificação de imagem de última geração, com perda de precisão muito minoritária. Essa perda é mitigada usando o método de reaprendizado que economiza pelo menos 30% de memória, com economias potenciais de até 43%. Compararemos o desempenho dos métodos propostos em relação às técnicas de compressão de modelos de última geração em termos de precisão, economia de memória, tempo de inferência e energia.
Kashikar et al. (Sab,) estudaram essa questão.