Los puntos clave no están disponibles para este artículo en este momento.
Las redes neuronales son intensivas en computación y memoria, y consumen una cantidad significativa de energía durante la inferencia. La reducción de bits de los pesos es una de las técnicas clave utilizadas para hacerlas eficientes en energía y área sin degradar el rendimiento. En este artículo, mostramos que la precisión de la inferencia cambia de manera insignificante incluso cuando los pesos en punto flotante se representan utilizando 10 bits (menos para ciertas otras redes neuronales), en lugar de 32 bits. Hemos considerado un conjunto de 8 redes neuronales. Además, proponemos una fórmula matemática para encontrar el número óptimo de bits requeridos para representar el exponente de los pesos en punto flotante, por debajo del cual la precisión cae drásticamente. También mostramos que la mantisa depende en gran medida del número de capas de una red neuronal y proponemos una prueba matemática para lo mismo. Nuestros resultados de simulación muestran que la reducción de bits proporciona un mejor rendimiento, eficiencia energética y eficiencia de área en comparación con los modelos con pesos de plena precisión.
Devnath et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: