A qualidade de geração visual foi grandemente promovida com os rápidos avanços nos transformers de difusão (DiTs), o que é atribuído à ampliação do tamanho e da complexidade do modelo. No entanto, essas atribuições também dificultam a implantação prática dos DiTs em dispositivos de borda, limitando seu desenvolvimento e aplicação. Servindo como uma técnica eficiente de compressão de modelo, a quantização pós-treinamento de modelo (PTQ) pode reduzir o consumo de memória e acelerar a inferência, com inevitável degradação de desempenho. Para aliviar a degradação, propomos o CLQ, um método de quantização ortogonal guiada em camadas cruzadas para DiTs. Especificamente, o CLQ consiste em três designs principais. Primeiro, observamos que os dados de calibração utilizados pela maioria dos métodos de PTQ não conseguem representar com honestidade a distribuição das ativações. Portanto, propomos a calibração cruzada entre blocos (CBC) para obter dados de calibração precisos, com os quais a quantização pode ser melhor orientada. Em segundo lugar, propomos a suavização baseada em ortogonalidade (OBS), que quantifica a pontuação de outliers de cada canal e utiliza a matriz de Hadamard em blocos para suavizar os outliers com sobrecarga negligenciável. Por último, propomos a busca de parâmetros em camadas cruzadas (CLPS) para buscar. Avaliamos o CLQ com modelos de geração de imagem e vídeo e comprimimos com sucesso o modelo para W4A4 com degradação negligenciável na qualidade visual e métricas. O CLQ alcança uma economia de memória de 3,98x e um aumento de velocidade de 3,95x. Nosso código está disponível em https://github.com/Kai-Liu001/CLQ.
Liu et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: