March 3, 2019Open Access

基于FPGA的CNN加速器集成深度可分离卷积

Key Points

Key points are not available for this paper at this time.

Abstract

卷积神经网络（CNN）已在许多领域中得到应用，并取得了显著成果，例如图像分类、人脸检测和语音识别。与GPU（图形处理单元）和ASIC相比，基于FPGA（现场可编程门阵列）的CNN加速器由于其低功耗和可重配置特性，具有很大优势。然而，FPGA的资源极为有限以及CNN的参数量和计算复杂性对设计构成了巨大挑战。基于ZYNQ异构平台，协调资源和带宽问题与屋顶线模型，我们设计的CNN加速器能够以高硬件资源率加速标准卷积和深度可分离卷积。该加速器可以通过参数配置处理不同规模的网络层，最大化带宽并通过使用数据流接口和乒乓片上缓存实现全流水线。实验结果表明，本文设计的加速器在32位浮点时可以达到17.11GOPS，同时也能够加速深度可分离卷积，与其他设计相比具有明显优势。

Bookmark

View Full Paper