What question did this study set out to answer?

큰 추론 모델에서 KV 캐시 양자화를 최적화하기 위한 이론적 프레임워크인 Think-Answer Quantization Gap을 확립하는 것이 목표입니다.

April 12, 2026Open Access

덜 생각하고 더 똑똑하게 저장하기: 대규모 추론 모델에서 타입 인지 KV 캐시 양자화를 위한 이론적 프레임워크

Key Points

큰 추론 모델에서 KV 캐시 양자화를 최적화하기 위한 이론적 프레임워크인 Think-Answer Quantization Gap을 확립하는 것이 목표입니다.
Think-Answer Quantization Gap (TAQG) 프레임워크를 도입했습니다.
특정 조건 하에서 균일한 KV 캐시 양자화의 비최적성을 증명했습니다.
DeepSeek-R1-Distill-Qwen-1.5B 모델을 사용해 프레임워크를 검증했습니다.
테스트된 모델에서 답변 단계 토큰이 생각 단계 토큰보다 더 높은 코사인 중복도를 나타냈습니다.
더 큰 671B 모델에서의 결과와 비교할 때 토큰 중복도에서 모델 크기에 따른 역전 현상이 관찰되었습니다.

Abstract

본 논문은 Think-Answer Quantization Gap (TAQG)를 제시하는데, 이는 생각 단계와 답변 단계 토큰 간 쌍별 코사인 중복도가 다를 때 대규모 추론 모델에서 균일한 KV 캐시 양자화가 증명적으로 최적이 아님을 보여주는 이론적 프레임워크입니다. 이 프레임워크는 방향 비의존적이며, 중복도가 더 높은 단계에 대해 더 적은 비트를 할당하도록 제안합니다. DeepSeek-R1-Distill-Qwen-1.5B 모델에서의 실증 검증 결과, 답변 단계 토큰이 생각 단계 토큰보다 더 높은 중복도를 보이는 놀라운 모델 크기 의존적 중복도 역전 현상이 관찰되었으며, 이는 전체 671B 모델에서의 결과와 반대입니다. 코드와 실험 데이터가 포함되어 있습니다.

덜 생각하고 더 똑똑하게 저장하기: 대규모 추론 모델에서 타입 인지 KV 캐시 양자화를 위한 이론적 프레임워크

Key Points

Abstract

Cite This Study