Key points are not available for this paper at this time.
대형 언어 모델(LLMs)은 자연어 처리 분야에서 기초가 되었으며, 모델 크기가 증가함에 따라 성능 개선을 보여주고 있습니다. 전문가 혼합(MoE) 접근법은 희소 활성화를 통해 더 적은 계산 FLOP를 사용하여 LLM을 보다 효율적으로 확장하는 유망한 방법을 제공합니다. 그러나 이는 상당한 메모리 오버헤드를 동반하여 모델 압축 기술이 필요합니다. 모델 압축을 위한 인기 있는 방법인 훈련 후 양자화는 MoE의 본질적인 희소성을 간과하여 MoE 모델에 직접 적용될 때 덜 효과적입니다. 이 논문에서는 MoE 구조 인식 양자화 휴리스틱을 조사하며, 이는 MoE 블록에서 개별 선형 가중치까지 거칠고 미세한 세분화로 이어집니다. 우리의 연구는 중요한 원칙들을 밝혀냅니다: 서로 다른 MoE 구조(즉, 블록, 전문가, 선형 층)는 효과적이고 효율적인 양자화를 위해 다양한 수의 가중치 비트를 필요로 합니다. 결론은 두 가지 대표적인 MoE 모델과 여섯 가지 작업에 대한 광범위한 벤치마킹으로 뒷받침됩니다. 우리는 또한 선형 가중치 이상치 점수자와 MoE 블록 점수자를 포함하여, 더 높은 비트 할당이 필요한 MoE 양자화에서 가장 중요한 가중치를 보다 정확하게 식별하는 혁신적인 향상을 소개합니다. 또한 후속 실험은 가중치와 활성화 양자화의 맥락에서 우리의 발견을 검증합니다.
Li et al. (Wed,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: