January 1, 2020

Un enfoque matemático hacia la cuantificación de pesos en punto flotante en redes neuronales de bajo consumo.

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las redes neuronales son intensivas en computación y memoria, y consumen una cantidad significativa de energía durante la inferencia. La reducción de bits de los pesos es una de las técnicas clave utilizadas para hacerlas eficientes en energía y área sin degradar el rendimiento. En este artículo, mostramos que la precisión de la inferencia cambia de manera insignificante incluso cuando los pesos en punto flotante se representan utilizando 10 bits (menos para ciertas otras redes neuronales), en lugar de 32 bits. Hemos considerado un conjunto de 8 redes neuronales. Además, proponemos una fórmula matemática para encontrar el número óptimo de bits requeridos para representar el exponente de los pesos en punto flotante, por debajo del cual la precisión cae drásticamente. También mostramos que la mantisa depende en gran medida del número de capas de una red neuronal y proponemos una prueba matemática para lo mismo. Nuestros resultados de simulación muestran que la reducción de bits proporciona un mejor rendimiento, eficiencia energética y eficiencia de área en comparación con los modelos con pesos de plena precisión.

Preguntar a la IA

Me gusta

Guardar