Key points are not available for this paper at this time.
모델 용량 확장은 기능을 향상시키지만 계산량이 크게 증가합니다. 전문가 혼합 모델(Mixture-of-Experts, MoEs)은 학습 또는 추론 비용을 크게 늘리지 않으면서 모델 용량을 확장할 수 있도록 하여 이 문제를 해결합니다. 유망한 결과에도 불구하고, MoE 모델은 여러 도전을 겪습니다. 주로, 학습 토큰이 여러 전문가에게 분산되면 특히 드문 토큰에 대해 과소적합이 발생할 수 있습니다. 또한, 고정 라우팅 메커니즘은 이 문제를 완화할 수 있지만, 표현의 다양성을 저해합니다. 본 논문에서는 전문가 혼합 모델 내에서 라우팅 마스킹 기법을 활용하여 토큰 수준 학습을 향상시키는 방법인 MaskMoE를 제안합니다. MaskMoE는 표현 다양성을 유지하면서 보다 포괄적인 학습을 달성할 수 있습니다. 실험 결과, 본 방법이 기존의 주요 전문가 혼합 모델들보다 혼란도(PPL)와 다운스트림 작업 모두에서 우수한 성능을 보임을 입증하였습니다.
Su 외 (Sat,)가 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: