Key points are not available for this paper at this time.
Jüngste Fortschritte im Deep Learning (DL) haben zur breiten Akzeptanz von KI-Anwendungen geführt, wie z.B. Bildverarbeitung 1, Bildentrauschung und Sprachrecognition in 5G-Smartphones. Für ein zufriedenstellendes Benutzererlebnis gibt es strenge Anforderungen an die Echtzeitantwort von Smartphone-Anwendungen. Um die Leistungserwartungen für DL zu erfüllen, wurden zahlreiche Deep Learning-Beschleuniger (DLA) für DL-Inferenz auf Edge-Geräten vorgeschlagen 2–5. Wie in Abbildung 7.1.1 dargestellt, besteht die größte Herausforderung beim Entwurf eines DLA für Smartphones darin, die erforderliche Recheneffizienz zu erreichen, während man durch das Leistungsbudget und die Speicherbandbreite (BW) eingeschränkt ist. Da der gesamte Stromverbrauch eines Smartphone-System-on-a-Chip (SoC) normalerweise auf 2 bis 3 W begrenzt ist und die verfügbare DRAM-BW etwa 10 bis 30 GB/s beträgt, muss das für einen DLA zugewiesene Leistungsbudget unter 1 W liegen, während die Speicher-BW auf 1 bis 10 GB/s begrenzt ist. Bei Betrieb unter solchen Einschränkungen muss der DLA verschiedene Netzwerk-Topologien und hochpräzise neuronale Operationen in Smartphone-Anwendungen unterstützen. Zum Beispiel spezifizieren die Android-Neuronalen Netzwerk-APIs derzeit die Verwendung asymmetrischer Quantisierung (ASYMM-Q), die eine bessere Präzision als die herkömmliche symmetrische Quantisierung bietet.
Lin et al. (Sat,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: