전문가 혼합(Mixture-of-Experts, MoE) 모델은 학습된 게이트 함수로 각 토큰을 일부 전문가에게 라우팅하여 매개변수 용량을 확장할 수 있습니다. 조건부 라우팅은 훈련 비용을 줄이는 반면, 추론 메모리 부담은 증가시키는데, 전문가 매개변수와 활성화가 메모리를 소비하여 디바이스당 사용할 수 있는 전문가 수를 제한합니다. 토큰이 라우팅됨에 따라 일부 전문가는 과부하되고 일부는 저활용됩니다. 전문가가 GPU에 매핑되기 때문에 이 균형 불균형은 지연 시간, 처리량 및 비용 측면에서 시스템 성능 저하로 직결됩니다. 우리는 LASER를 제안하는데, 이는 정확도를 유지하면서 부하를 균형 있게 조정하는 플러그 앤 플레이 추론 시간 라우팅 알고리즘입니다. LASER는 게이트 점수 분포의 형태에 적응합니다. 점수가 명확한 선호도를 보일 때는 가장 강력한 전문가로 라우팅하고, 점수가 더 균일할 때는 유효 전문가 집합을 확대하여 그 중 가장 부하가 적은 전문가로 라우팅합니다. LASER는 학습된 모델의 게이트 점수만을 사용하기 때문에 재학습 또는 미세 조정 없이 기존 MoE 추론 파이프라인에 직접 통합할 수 있습니다. ARC-Easy, ARC-Challenge, MMLU, GSM8K 네 개 데이터셋에 걸쳐 Mixtral-8x7B 및 DeepSeek-MoE-16b-chat에서 LASER를 평가한 결과, LASER는 부하 균형을 개선하여 지연 시간 감소 및 처리량 증가로 이어지며 정확도 변화는 미미합니다.
Shahout 등(월요일)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: