대규모 언어 모델(LLM) 추론 시스템은 실제 환경에서 연산 성능, 메모리 용량, 네트워크 대역폭이 서로 다른 이종 가속기 클러스터에 배치되는 경우가 증가하고 있다. 그러나 기존 분산 추론 시스템은 모든 장치를 동일하게 취급하는 하드웨어 불가지론적 실행(hardware-agnostic execution)을 강제하며, 이로 인해 이종 자원 간의 복합적인 상호작용 과정에서 심각한 구조적 비효율과 동기화 장벽(synchronization barriers) 오버헤드가 발생한다. 본 논문은 이러한 성능 저하가 단일 병목 현상이 아니라 연산 불균형, 메모리 비대칭, 토폴로지 미인지 통신이 결합된 결과임을 규명한다. 본 논문에서는 이러한 다차원적 비효율을 해결하기 위해 세 가지 차원을 통합적으로 최적화하는 HASC(Heterogeneity-Aware Scheduling and Communication) 런타임 프레임워크를 제안한다. HASC는 온라인 프로파일링을 통해 런타임 하드웨어 특성(characteristics)을 포착하고, 이를 기반으로 워크로드 스케줄링과 집합 통신을 하드웨어 이질성에 맞춰 동적으로 조정한다. 이종 GPU 클러스터에서의 실험 결과, HASC는 기존 DeepSpeed Inference 대비 토큰당 지연 시간을 최대 60.7% 감소시켜, 비균일 하드웨어 환경에서 효율적인 LLM 서비스를 위해 명시적인 다차원 협업 최적화가 필수적임을 입증하였다.
Hong et al. (Thu,) studied this question.