April 1, 2019

Un Acelerador de Hardware Eficiente para Redes Neuronales Convolucionales Dispersas en FPGAs

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las redes neuronales convolucionales profundas (CNN) han alcanzado un rendimiento notable con el costo de un enorme cálculo. A medida que el modelo de CNN se vuelve más complejo y profundo, la compresión de CNN a dispersas mediante la poda de conexiones redundantes en las redes ha surgido como un enfoque atractivo para reducir la cantidad de cálculos y los requisitos de memoria. En años recientes, se ha demostrado que los FPGAs son una plataforma de hardware efectiva para acelerar la inferencia de CNN. Sin embargo, la mayoría de las arquitecturas FPGA existentes se centran en modelos de CNN densas. La arquitectura diseñada para modelos de CNN densas es ineficiente al ejecutar modelos dispersos, ya que la mayoría de las operaciones aritméticas implican adición y multiplicación con operandos cero. Por otro lado, los recientes aceleradores FPGA dispersos solo se centran en capas FC. En este trabajo, nuestro objetivo es desarrollar un acelerador FPGA para CNNs dispersas. Para manejar eficientemente la conexión irregular en la capa convolucional dispersa, proponemos un flujo de datos orientado a pesos que procesa cada peso individualmente. Luego diseñamos una arquitectura FPGA que puede manejar de manera eficiente la conexión entrada-peso y la conexión peso-salida. Para la conexión entrada-peso, diseñamos una tabla de búsqueda de mosaicos para eliminar la coincidencia de índices en tiempo de ejecución de pesos comprimidos. Además, desarrollamos un diseño de pesos para permitir un alto acceso a la memoria en chip. Para cooperar con el diseño de pesos, se inserta un multiplexor de canal para localizar la dirección que puede asegurar que no haya conflictos de acceso a los datos. Los experimentos demuestran que nuestro acelerador puede alcanzar 223.4-309.0 GOP/s para las CNNs modernas en Xilinx ZCU102, lo que proporciona un aumento de velocidad de 3.6x-12.9x en comparación con los aceleradores FPGA de CNN densas anteriores.

Preguntar a la IA

Me gusta

Guardar