What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 10, 2025Open Access

PT²-LLM: Ternarização Pós-Treinamento para Grandes Modelos de Linguagem

Key Points

PT²-LLM demonstra menor custo de memória enquanto melhora o desempenho em relação aos métodos de quantização de estado da arte.
O sistema emprega ajuste ternário iterativo para minimizar efetivamente o erro de quantização.
Incorporar alinhamento de grade atenta à ativação proporciona melhor ajuste com saídas de precisão total.
Reordenamento baseado em similaridade estrutural mitiga efeitos de outliers, melhorando o desempenho geral do modelo.

Abstract

Grandes Modelos de Linguagem (LLMs) demonstraram capacidades impressionantes em diversas tarefas, mas suas grandes demandas de memória e computação dificultam a implementação. A ternarização ganhou atenção como uma técnica de compressão promissora, proporcionando significativa redução de tamanho e alta eficiência computacional. No entanto, seu potencial no contexto de quantização pós-treinamento (PTQ) permanece pouco explorado, devido ao desafio da otimização de parâmetros sem treinamento e à dificuldade de quantização imposta por outliers e pesos dispersos. Para abordar essas questões, propomos o PT²-LLM, uma estrutura de ternarização pós-treinamento adaptada para LLMs. No seu núcleo está um Quantizador Ternário Assimétrico equipado com um pipeline de refinamento em duas etapas: (1) Ajuste Ternário Iterativo (ITF), que alterna entre a construção de grade ternária ótima e arredondamento flexível para minimizar o erro de quantização, e (2) Alinhamento de Grade Atenta à Ativação (AGA), que refina ainda mais a grade ternária para melhor corresponder às saídas de precisão total. Além disso, propomos uma estratégia de Reordenamento Baseada em Similaridade Estrutural (SSR) plug-and-play que aproveita a similaridade estrutural entre colunas para facilitar a quantização e mitigar os efeitos de outliers, melhorando ainda mais o desempenho geral. Experimentos extensivos demonstram que o PT²-LLM oferece desempenho competitivo em relação aos métodos de PTQ de 2 bits de estado da arte (SOTA) com menor custo de memória, ao mesmo tempo que acelera tanto o preenchimento quanto a decodificação para alcançar aceleração de ponta a ponta. O código e os modelos estarão disponíveis em https://github.com/XIANGLONGYAN/PT2-LLM.

PT²-LLM: Ternarização Pós-Treinamento para Grandes Modelos de Linguagem

Key Points

Abstract

Cite This Study