Key points are not available for this paper at this time.
Das LSTM-Neuronales Netzwerk wird häufig für die Vorhersage von Zeitreihendaten eingesetzt, da es über eine starke nichtlineare Abbildungskapazität und einen Erinnerungseffekt verfügt, was eine bessere Identifizierung komplexer Datenmerkmale ermöglicht. Allerdings kann die große Rechenlast, die von neuronalen Netzwerken benötigt wird, zu längeren Vorhersagezeiten führen, wodurch die Bereitstellung auf zeitkritischen Embedded-Geräten herausfordernd wird. Um dem entgegenzuwirken, bietet TensorRT, ein Software-Entwicklungskit für NVIDIA-Hardwareplattformen, optimierte Netzwerkstrukturen und reduzierte Inferenzzeiten für Deep-Learning-Inferenzanwendungen. Obwohl die Inferenzen in TensorRT, wie bei anderen Deep-Learning-Frameworks, GPU-basiert sind, übertrifft TensorRT vergleichbare Frameworks hinsichtlich der Inferenzgeschwindigkeit. In diesem Papier vergleichen wir den Verbrauch der Inferenzzeit und die Vorhersageabweichung verschiedener Ansätze auf CPU, GPU und TensorRT und untersuchen zudem die Auswirkungen unterschiedlicher Quantisierungsansätze. Unsere Experimente zeigen die Genauigkeit und Inferenzlatenz desselben Modells auf dem FPGA-Entwicklungsboard PYNQ-Z1, wobei die besten Ergebnisse mit dem NVIDIA Jetson Xavier NX erzielt wurden. Die Ergebnisse zeigen eine Verbesserung der Inferenzgeschwindigkeit um etwa das 50-fache im Vergleich zu unserer vorherigen Technik, mit nur einem Anstieg des mittleren absoluten prozentualen Fehlers (MAPE) um 0,2%. Diese Arbeiten heben die Effektivität und Effizienz von TensorRT bei der Reduzierung der Inferenzzeiten hervor und machen es zu einer hervorragenden Wahl für die Bereitstellung von zeitkritischen Embedded-Geräten, die eine hohe Präzision und geringe Latenz erfordern.
Zhu et al. (Fr,) haben diese Frage untersucht.