Key points are not available for this paper at this time.
Mit der raschen Entwicklung von konvolutionalen neuronalen Netzwerken (CNNs) sind FPGAs zu einem der attraktivsten Kandidaten für die Bereitstellung von CNNs geworden. Allerdings sind frühere FPGA-Lösungen, die auf der traditionellen Faltung basieren, weiterhin durch die Rechenleistung begrenzt. In diesem Artikel führen wir die Oktav-Faltung (OctConv) erstmals in das Design von CNN-Beschleunigern ein, um die Effizienz der Hardwarebeschleunigung zu verbessern, und entwerfen ein dediziertes OctPU zur Abbildung von OctConv auf FPGAs, das ein paralleles Datenflussmuster verwendet, um den Parallelismus von OctConv auszunutzen. Anschließend präsentieren wir eine neuartige und skalierbare Architektur, die dynamisch die zwischen den Schichten pipelined Struktur und die Mehrschicht-Wiederverwendungsstruktur kombiniert. Gleichzeitig bauen wir ein multidimensionales Leistungs- und Ressourcenanalysemodell sowie einen zweistufigen Suchalgorithmus auf, der auf gierigen und heuristischen Algorithmen basiert, um die optimierte Lösung zu erhalten. Wir evaluieren unseren Vorschlag, indem wir VGG16 und ResNet50 auf dem Xilinx VU9P FPGA implementieren. Experimentelle Ergebnisse zeigen, dass unsere Prototypen eine durchschnittliche Leistung von 3321 GOP/s für die Faltungsschichten von VGG16 und 2873 GOP/s für das gesamte ResNet50 unter Verwendung von OctConv erreichen können. Im Vergleich zu früheren Arbeiten, die auf der traditionellen Faltung basieren, zeigen unsere Prototypen eine 1,72- bis 2,33-fache Beschleunigung in der Durchsatzrate und eine Verbesserung der Rechendichte um das 2,01- bis 5,18-fache. Unser Design bietet auch einen ausgezeichneten Kompromiss zwischen Leistung und Verallgemeinerung.
Lou et al. (Fr,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: