본 논문은 Think-Answer Quantization Gap (TAQG)를 제시하는데, 이는 생각 단계와 답변 단계 토큰 간 쌍별 코사인 중복도가 다를 때 대규모 추론 모델에서 균일한 KV 캐시 양자화가 증명적으로 최적이 아님을 보여주는 이론적 프레임워크입니다. 이 프레임워크는 방향 비의존적이며, 중복도가 더 높은 단계에 대해 더 적은 비트를 할당하도록 제안합니다. DeepSeek-R1-Distill-Qwen-1.5B 모델에서의 실증 검증 결과, 답변 단계 토큰이 생각 단계 토큰보다 더 높은 중복도를 보이는 놀라운 모델 크기 의존적 중복도 역전 현상이 관찰되었으며, 이는 전체 671B 모델에서의 결과와 반대입니다. 코드와 실험 데이터가 포함되어 있습니다.
Raviteja Nekkalapu (금요일,)가 이 문제를 연구했습니다.