June 14, 2024Open Access

상용 GPU를 통한 학습된 서브스페이스 프로젝터를 사용한 미세 조정을 위한 실용적인 오프로드

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLMs)의 미세 조정은 상당한 메모리를 필요로 하며, 종종 단일 GPU의 용량을 초과합니다. 이 메모리 문제에 대한 일반적인 솔루션은 GPU에서 CPU로 컴퓨팅 및 데이터를 오프로드하는 것입니다. 그러나 이 접근법은 CPU와 GPU 간의 통신을 제약하는 상용 하드웨어의 제한된 대역폭에 의해 방해받습니다. 본 논문에서는 학습된 서브스페이스 프로젝터를 통해 상용 하드웨어에서 네이티브 속도에 가까운 LLM 미세 조정을 가능하게 하는 오프로드 프레임워크인 LSPOffload를 제시합니다. 우리의 데이터 기반 접근법은 최소한의 정밀도 손실로 통신을 최소화하는 효율적인 희소 압축기를 학습하는 것을 포함합니다. 또한, 통신과 계산 간의 병렬성을 극대화하기 위해 새로워진 층별 통신 스케줄을 도입합니다. 그 결과, 우리의 프레임워크는 4GB 랩탑 GPU에서 13억 매개변수 모델을, 24GB 메모리의 NVIDIA RTX 4090 GPU에서 70억 매개변수 모델을 미세 조정할 수 있으며, 무제한 메모리로 미세 조정할 때와 비교하여 단 31%의 지연만 발생합니다. 최신 오프로드 프레임워크와 비교할 때, 우리의 접근법은 미세 조정 처리량을 최대 3.33배 증가시키고, 동일한 정확도로 수렴할 때 엔드 투 엔드 미세 조정 시간을 33.1%~62.5% 줄입니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper