Gemischte Präzisionsquantisierungstechniken für energieeffiziente DNN-Inferenz

Key Points

Die Ergebnisse zeigen, dass die gemischte Präzisionsquantisierung die Bitbreitenzuweisungen des Modells erheblich reduziert und die Recheneffizienz erhöht.
Zwei quantisierungsbewusste Trainingsmethoden wurden implementiert, die das Potenzial zeigen, die Genauigkeit zu erhalten und gleichzeitig die Ressourcenanforderungen zu senken.
Die Analyse zeigte die Möglichkeit, neuronale Netze mit reduzierter Bitbreite bereitzustellen, was ihre Machbarkeit in praktischen Anwendungen bestätigt.
Die Implikationen deuten darauf hin, dass solche Techniken zu energieeffizienter Inferenz führen können, was für den großflächigen Einsatz von Deep-Learning-Modellen entscheidend ist.

Abstract

In diesem Projekt wollten wir die Recheneffizienz und die Bereitstellungsverhältnisse von neuronalen Netzen durch gemischte Präzisionsquantisierung verbessern. Wir haben zwei quantisierungsbewusste Trainingsmethoden (QAT) implementiert. Unsere Ergebnisse zeigten signifikante Reduzierungen bei den Bitbreitenzuweisungen des Modells bei gleichzeitiger Beibehaltung einer Genauigkeit, die mit der von Modellen mit voller Präzision vergleichbar ist.

Gemischte Präzisionsquantisierungstechniken für energieeffiziente DNN-Inferenz

Key Points

Abstract

Cite This Study