Key points are not available for this paper at this time.
Der Bau eines Hochleistungs-FPGA-Beschleunigers für tiefe neuronale Netze (DNNs) erfordert oft RTL-Programmierung, Hardware-Verifikation und präzise Ressourcenzuteilung, was alles zeitaufwendig und herausfordernd sein kann, selbst für erfahrene FPGA-Entwickler. Um die Kluft zwischen schneller DNN-Konstruktion in Software (z.B. Caffe, TensorFlow) und langsamer Hardware-Implementierung zu überbrücken, schlagen wir DNNBuilder vor, um automatisch Hochleistungs-DNN-Hardwarebeschleuniger auf FPGAs zu erstellen. Neuartige Techniken werden entwickelt, um die Durchsatz- und Latenzanforderungen sowohl für Cloud- als auch Edge-Geräte zu erfüllen. Eine Reihe neuartiger Techniken, darunter hochwertige RTL-neuronale Netzwerkkomponenten, eine fein aufgeteilte schichtbasierte Pipeline-Architektur und ein spaltenbasiertes Cache-Schema, werden entwickelt, um den Durchsatz zu erhöhen, die Latenz zu reduzieren und den FPGA-On-Chip-Speicher zu sparen. Um die Herausforderung begrenzter Ressourcen anzugehen, entwerfen wir ein automatisches Werkzeug zur Erkundung des Designraums, um optimierte Parallelisierungsrichtlinien zu generieren, indem wir den externen Speicherzugriffsbandbreite, das Datenwiederverhalten, die Verfügbarkeit von FPGA-Ressourcen und die Komplexität von DNNs berücksichtigen. DNNBuilder wird bei vier DNNs (Alexnet, ZF, VGG16 und YOLO) auf zwei FPGAs (XC7Z045 und KU115) demonstriert, die den Edge- und Cloud-Computing entsprechen. Die fein aufgeteilte schichtbasierte Pipeline-Architektur und das spaltenbasierte Cache-Schema tragen zur Reduktion der Latenz um das 7,7-fache und der BRAM-Nutzung um das 43-fache im Vergleich zu konventionellen Designs bei. Wir erreichen die beste Leistung (bis zu 5,15-fach schneller) und Effizienz (bis zu 5,88-fach effizienter) im Vergleich zu veröffentlichten FPGA-basierten klassifikationsorientierten DNN-Beschleunigern sowohl für Edge- als auch Cloud-Computing-Fälle. Wir erreichen 4218 GOPS für die Ausführung von Objekterkennungs-DNN, was den höchsten Durchsatz umfasst, der nach unserem besten Wissen berichtet wurde. DNNBuilder kann Echtzeit-Leistungen im Millisekundenbereich für die Verarbeitung von HD-Videoeingaben bereitstellen und bietet eine höhere Effizienz (bis zu 4,35-fach) als die GPU-basierten Lösungen.
Zhang et al. (Mon,) haben diese Frage untersucht.