Key points are not available for this paper at this time.
A quantização é considerada uma das metodologias mais eficazes para otimizar o custo de inferência de modelos de redes neurais para sua implantação em sistemas móveis e embarcados, que possuem restrições de recursos rigorosas. Em tais abordagens, é fundamental fornecer quantização de baixo custo sob uma restrição apertada de perda de precisão (por exemplo, 1%). Neste artigo, propomos um novo método para quantizar pesos e ativações com base no conceito de entropia ponderada. Ao contrário de trabalhos recentes sobre redes neurais com pesos binários, nossa abordagem é a quantização multi-bit, na qual pesos e ativações podem ser quantizados por qualquer número de bits dependendo da precisão alvo. Isso facilita uma exploração muito mais flexível do trade-off entre precisão e desempenho proporcionado por diferentes níveis de quantização. Além disso, nosso esquema fornece um fluxo de quantização automatizado baseado em algoritmos de treinamento convencionais, o que reduz significativamente o esforço de design para quantizar a rede. De acordo com nossas avaliações extensivas com base em modelos práticos de redes neurais para classificação de imagens (AlexNet, GoogLeNet e ResNet-50/101), detecção de objetos (R-FCN com ResNet de 50 camadas) e modelagem de linguagem (uma rede LSTM), nosso método alcança reduções significativas tanto no tamanho do modelo quanto na quantidade de computação com mínima perda de precisão. Além disso, em comparação com esquemas de quantização existentes, o nosso fornece maior precisão com uma restrição de recursos semelhante e requer um esforço de design muito menor.
Park et al. (Sat,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: