Key points are not available for this paper at this time.
대규모 언어 모델(LLMs)은 자연어 처리에서 컴퓨터 비전 및 그 이상에 이르기까지 다양한 분야에서 전례 없는 발전을 이루었습니다. LLM의 능력은 상당한 모델 크기, 방대하고 다양한 데이터 세트, 교육 중 활용된 엄청난 계산 능력에 의해 뒷받침되는데, 이 모든 것이 LLM의 emergent abilities(예: 맥락 학습)에 기여하며, 이는 작은 모델에서는 존재하지 않습니다. 이러한 맥락에서, 전문가 혼합(MoE)은 최소한의 계산 오버헤드로 모델 용량을 대폭 확장하는 효과적인 방법으로 부상하며, 학계와 산업계에서 상당한 주목을 받고 있습니다. 그러나 MoE에 대한 체계적이고 포괄적인 문헌 리뷰는 부족합니다. 이 조사는 이러한 격차를 메우기 위해 설계되었으며, MoE의 복잡성을 파고드는 연구자들에게 필수적인 자원으로 기능합니다. 우리는 먼저 MoE 레이어의 구조를 간략히 소개한 후 MoE의 새로운 분류법을 제안합니다. 다음으로 알고리즘적 및 시스템적 측면을 포함한 다양한 MoE 모델에 대한 핵심 설계를 개관하고, 사용 가능한 오픈 소스 구현, 하이퍼파라미터 구성 및 실증 평가의 집합을 제공합니다. 더욱이, 우리는 MoE의 다양한 실제 응용 프로그램을 설명하고, 향후 연구를 위한 잠재적 방향을 설명합니다. MoE 연구에서 진행 중인 업데이트와 최첨단 개발 공유를 용이하게 하기 위해 https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts 에 접근 가능한 자원 저장소를 마련했습니다.
Cai et al. (수요일)은 이 질문을 연구했습니다.