What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

CLQ: Quantização Ortogonal Guiada em Camadas Cruzadas para Transformers de Difusão

Key Points

O CLQ alcança significativamente uma economia de memória de 3,98x e um aumento de velocidade de 3,95x com degradação mínima na qualidade visual.
Utilizando calibração cruzada entre blocos, o CLQ garante dados de calibração precisos para melhor guiar o processo de quantização.
A técnica de suavização baseada em ortogonalidade identifica e mitiga efetivamente as pontuações de outliers em transformers de difusão.
O CLQ integra a busca de parâmetros em camadas cruzadas para otimizar a quantização entre diferentes camadas do modelo.

Abstract

A qualidade de geração visual foi grandemente promovida com os rápidos avanços nos transformers de difusão (DiTs), o que é atribuído à ampliação do tamanho e da complexidade do modelo. No entanto, essas atribuições também dificultam a implantação prática dos DiTs em dispositivos de borda, limitando seu desenvolvimento e aplicação. Servindo como uma técnica eficiente de compressão de modelo, a quantização pós-treinamento de modelo (PTQ) pode reduzir o consumo de memória e acelerar a inferência, com inevitável degradação de desempenho. Para aliviar a degradação, propomos o CLQ, um método de quantização ortogonal guiada em camadas cruzadas para DiTs. Especificamente, o CLQ consiste em três designs principais. Primeiro, observamos que os dados de calibração utilizados pela maioria dos métodos de PTQ não conseguem representar com honestidade a distribuição das ativações. Portanto, propomos a calibração cruzada entre blocos (CBC) para obter dados de calibração precisos, com os quais a quantização pode ser melhor orientada. Em segundo lugar, propomos a suavização baseada em ortogonalidade (OBS), que quantifica a pontuação de outliers de cada canal e utiliza a matriz de Hadamard em blocos para suavizar os outliers com sobrecarga negligenciável. Por último, propomos a busca de parâmetros em camadas cruzadas (CLPS) para buscar. Avaliamos o CLQ com modelos de geração de imagem e vídeo e comprimimos com sucesso o modelo para W4A4 com degradação negligenciável na qualidade visual e métricas. O CLQ alcança uma economia de memória de 3,98x e um aumento de velocidade de 3,95x. Nosso código está disponível em https://github.com/Kai-Liu001/CLQ.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Liu et al. (Mon,) estudaram esta questão.

synapsesocial.com/papers/68f5fcce8d54a28a75cf1c45 https://doi.org/https://doi.org/10.48550/arxiv.2509.24416

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper