In diesem Projekt wollten wir die Recheneffizienz und die Bereitstellungsverhältnisse von neuronalen Netzen durch gemischte Präzisionsquantisierung verbessern. Wir haben zwei quantisierungsbewusste Trainingsmethoden (QAT) implementiert. Unsere Ergebnisse zeigten signifikante Reduzierungen bei den Bitbreitenzuweisungen des Modells bei gleichzeitiger Beibehaltung einer Genauigkeit, die mit der von Modellen mit voller Präzision vergleichbar ist.
Omar Lahyani (Mi.) hat diese Frage untersucht.