What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

점수 분포에서 균형으로: 플러그 앤 플레이 전문가 혼합 라우팅

Key Points

LASER는 추론 시 부하 균형을 향상시켜 시스템 효율성을 높이고 지연 시간을 줄입니다.
이 방법은 처리량을 최적화하면서 정확도를 유지하여 실시간 애플리케이션에 필수적입니다.
플러그 앤 플레이 방식을 사용하여 LASER는 재학습 없이 기존 모델에 쉽게 통합되어 즉각적인 이점을 제공합니다.
Mixtral-8x7B 및 DeepSeek-MoE-16b-chat에서 다양한 데이터셋을 대상으로 한 평가에서 상당한 성능 향상이 입증되었습니다.

Abstract

전문가 혼합(Mixture-of-Experts, MoE) 모델은 학습된 게이트 함수로 각 토큰을 일부 전문가에게 라우팅하여 매개변수 용량을 확장할 수 있습니다. 조건부 라우팅은 훈련 비용을 줄이는 반면, 추론 메모리 부담은 증가시키는데, 전문가 매개변수와 활성화가 메모리를 소비하여 디바이스당 사용할 수 있는 전문가 수를 제한합니다. 토큰이 라우팅됨에 따라 일부 전문가는 과부하되고 일부는 저활용됩니다. 전문가가 GPU에 매핑되기 때문에 이 균형 불균형은 지연 시간, 처리량 및 비용 측면에서 시스템 성능 저하로 직결됩니다. 우리는 LASER를 제안하는데, 이는 정확도를 유지하면서 부하를 균형 있게 조정하는 플러그 앤 플레이 추론 시간 라우팅 알고리즘입니다. LASER는 게이트 점수 분포의 형태에 적응합니다. 점수가 명확한 선호도를 보일 때는 가장 강력한 전문가로 라우팅하고, 점수가 더 균일할 때는 유효 전문가 집합을 확대하여 그 중 가장 부하가 적은 전문가로 라우팅합니다. LASER는 학습된 모델의 게이트 점수만을 사용하기 때문에 재학습 또는 미세 조정 없이 기존 MoE 추론 파이프라인에 직접 통합할 수 있습니다. ARC-Easy, ARC-Challenge, MMLU, GSM8K 네 개 데이터셋에 걸쳐 Mixtral-8x7B 및 DeepSeek-MoE-16b-chat에서 LASER를 평가한 결과, LASER는 부하 균형을 개선하여 지연 시간 감소 및 처리량 증가로 이어지며 정확도 변화는 미미합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper