대규모 언어 모델(LLM)은 다양한 작업에서 인상적인 성능을 발휘하지만, 상당한 GPU 메모리를 필요로 하고 상당한 컴퓨팅 자원을 소비합니다. 모델 가중치뿐만 아니라, KV 캐시가 차지하는 메모리는 시퀀스 길이에 비례하여 선형적으로 증가하며, 추론의 주요 병목 현상이 됩니다. 본 논문에서는 KV 캐시의 메모리 사용량을 상당히 줄이는 새로운 최적화 접근 방식을 소개합니다. 포괄적인 조사를 통해 LLaMA2 시리즈 모델에서 (i) 인접 토큰의 쿼리 벡터 사이의 유사성이 remarkably 높으며, (ii) 현재 쿼리의 주의 계산은 이전 쿼리의 주의 정보의 작은 부분만으로도 수행할 수 있음을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 모델을 미세 조정하지 않고 추론을 위해 중요한 키-값 쌍을 동적으로 유지하는 KV 캐시 퇴출 정책인 CORM을 제안합니다. 우리는 CORM이 LongBench의 여섯 가지 작업에서 눈에 띄는 성능 저하 없이 KV 캐시의 추론 메모리 사용량을 최대 70% 줄인다는 것을 검증합니다.
Dai et al. (수요일)이 문제에 대해 연구했습니다.