April 24, 2024Open Access

시퀀스가 비밀리에 무엇을 버릴지 알려줄 수 있다

Key Points

CORM을 사용하면 KV 캐시의 추론 메모리 사용량을 70%까지 줄일 수 있으며 성능을 유지합니다.
CORM은 대규모 언어 모델에서 인접 쿼리 벡터의 유사성에 따라 선택적으로 키-값 쌍을 유지합니다.
평가는 LLaMA2 시리즈 모델을 여섯 가지 작업에 걸쳐 포함하여 CORM의 추론 효율성 한계를 검증했습니다. 이 최적화는 추론 과정에서 증가하는 시퀀스 길이에 의해 발생하는 병목 현상 문제를 해결하는 데 도움을 줍니다.

Abstract

대규모 언어 모델(LLM)은 다양한 작업에서 인상적인 성능을 발휘하지만, 상당한 GPU 메모리를 필요로 하고 상당한 컴퓨팅 자원을 소비합니다. 모델 가중치뿐만 아니라, KV 캐시가 차지하는 메모리는 시퀀스 길이에 비례하여 선형적으로 증가하며, 추론의 주요 병목 현상이 됩니다. 본 논문에서는 KV 캐시의 메모리 사용량을 상당히 줄이는 새로운 최적화 접근 방식을 소개합니다. 포괄적인 조사를 통해 LLaMA2 시리즈 모델에서 (i) 인접 토큰의 쿼리 벡터 사이의 유사성이 remarkably 높으며, (ii) 현재 쿼리의 주의 계산은 이전 쿼리의 주의 정보의 작은 부분만으로도 수행할 수 있음을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 모델을 미세 조정하지 않고 추론을 위해 중요한 키-값 쌍을 동적으로 유지하는 KV 캐시 퇴출 정책인 CORM을 제안합니다. 우리는 CORM이 LongBench의 여섯 가지 작업에서 눈에 띄는 성능 저하 없이 KV 캐시의 추론 메모리 사용량을 최대 70% 줄인다는 것을 검증합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper