Grandes Modelos de Linguagem (LLMs) demonstraram capacidades impressionantes em diversas tarefas, mas suas grandes demandas de memória e computação dificultam a implementação. A ternarização ganhou atenção como uma técnica de compressão promissora, proporcionando significativa redução de tamanho e alta eficiência computacional. No entanto, seu potencial no contexto de quantização pós-treinamento (PTQ) permanece pouco explorado, devido ao desafio da otimização de parâmetros sem treinamento e à dificuldade de quantização imposta por outliers e pesos dispersos. Para abordar essas questões, propomos o PT²-LLM, uma estrutura de ternarização pós-treinamento adaptada para LLMs. No seu núcleo está um Quantizador Ternário Assimétrico equipado com um pipeline de refinamento em duas etapas: (1) Ajuste Ternário Iterativo (ITF), que alterna entre a construção de grade ternária ótima e arredondamento flexível para minimizar o erro de quantização, e (2) Alinhamento de Grade Atenta à Ativação (AGA), que refina ainda mais a grade ternária para melhor corresponder às saídas de precisão total. Além disso, propomos uma estratégia de Reordenamento Baseada em Similaridade Estrutural (SSR) plug-and-play que aproveita a similaridade estrutural entre colunas para facilitar a quantização e mitigar os efeitos de outliers, melhorando ainda mais o desempenho geral. Experimentos extensivos demonstram que o PT²-LLM oferece desempenho competitivo em relação aos métodos de PTQ de 2 bits de estado da arte (SOTA) com menor custo de memória, ao mesmo tempo que acelera tanto o preenchimento quanto a decodificação para alcançar aceleração de ponta a ponta. O código e os modelos estarão disponíveis em https://github.com/XIANGLONGYAN/PT2-LLM.
Yan et al. (Sat,) estudaram esta questão.