March 27, 2024

APPQ-CNN: Un Acelerador de Inferencia de CNNs Adaptativo para Explotar Sinérgicamente la Pruning y Cuantización Basada en FPGA

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las redes neuronales convolucionales (CNNs) se utilizan ampliamente en aplicaciones de computación Edge inteligente, como visión computacional y procesamiento de imágenes. Sin embargo, a medida que aumenta el número de capas del modelo CNN, el número de parámetros y cálculos también aumenta, lo que hace que sea cada vez más difícil acelerar las aplicaciones de computación Edge. Para adaptarse efectivamente al compromiso entre la velocidad y la precisión de la inferencia de CNNs para aplicaciones inteligentes, este artículo propone un acelerador de inferencia de CNNs adaptativo basado en FPGA que utiliza sinérgicamente pruning de filtros, cuantización de parámetros en punto fijo y paralelismo de unidades de cálculo múltiples llamado APPQ-CNN. Primero, el artículo desarrolla un algoritmo de pruning híbrido basado en la norma L1 y APoZ para medir el grado de impacto del filtro y una arquitectura de computación de cuantización de parámetros configurable en punto fijo en lugar de arquitectura de punto flotante. Luego, diseña una cascada de la arquitectura de núcleo de CNN en pipelina y unidades de computación múltiples configurables. Finalmente, realiza una extensa exploración de rendimiento y experimentos comparativos en varios conjuntos de datos reales y sintéticos. Con una pérdida de precisión negligible, el rendimiento de velocidad de nuestro acelerador APPQ-CNN se compara con los aceleradores actuales de vanguardia basados en FPGA, PipeCNN y OctCNN, en 2.15x y 1.91x, respectivamente. Además, APPQ-CNN proporciona parámetros configurables de ancho de bit de cuantización en punto fijo, tasa de pruning de filtros y conteo de unidades de computación múltiples para hacer frente a los requisitos de rendimiento de aplicaciones prácticas en computación Edge.

Me gusta

Guardar