Los puntos clave no están disponibles para este artículo en este momento.
Se implementa un acelerador de aprendizaje profundo escalable que soporta el proceso de entrenamiento para la personalización de dispositivos de redes neuronales profundas convolucionales (CNNs). Consiste en tres núcleos de procesador que operan con un flujo de datos eficiente en energía distinto para diferentes tipos de computación en el entrenamiento de CNN. A diferencia de los trabajos anteriores donde implementan técnicas de diseño para explotar las mismas características de la inferencia, analizamos los principales problemas que ocurrieron durante el entrenamiento en un sistema con recursos limitados para resolver los cuellos de botella. Un esquema de enmascaramiento en el núcleo de propagación reduce una gran cantidad de almacenamiento de datos de activación intermedia. Elimina accesos frecuentes a la memoria externa para mantener los datos de activación generados hasta el camino de retroceso. Se implementa una arquitectura de flujo de datos dispar para el cálculo del gradiente de peso para mejorar la utilización del PE mientras se reutilizan al máximo los datos de entrada. Además, el sistema de actualización de peso modificado permite un camino de computación de punto fijo de 8 bits. El procesador se implementa en tecnología CMOS de 65 nm y ocupa 10.24 mm² del área del núcleo. Opera con un voltaje de suministro de 0.63 a 1.0 V, y el motor de computación funciona en un voltaje casi umbral de 0.5 V. El chip consume 40.7 mW a 50 MHz con la máxima eficiencia y logra 47.4 μJ/epoch de eficiencia de entrenamiento para el modelo de CNN personalizado.
Choi et al. (Thu,) estudiaron esta cuestión.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: