Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업에서 뛰어난 성능을 보여주었습니다. 미세 조정 기술은 일반적으로 사전 학습된 모델을 특정 응용 프로그램에 맞추기 위해 사용됩니다. LoRA와 같은 방법은 미세 조정 중 GPU 메모리 제약을 효과적으로 해결했지만, 그 적용 가능성은 다중 작업에서 제한된 성능으로 종종 제약을 받습니다. 반면, Mixtral 8x7B와 같은 전문가 혼합(MoE) 모델은 상대적으로 적은 매개변수 수를 유지하면서 여러 NLP 작업에서 놀라운 성능을 보여줍니다. 그러나 이러한 MoE의 자원 요구 사항은 여전히 도전 과제로 남아 있으며, 특히 소비자 등급 GPU는 제한된 VRAM만을 가지고 있습니다. 이러한 문제를 해결하기 위해 우리는 LoRA 기반의 자원 효율적인 희소 MoE 모델을 구축하는 혁신적인 접근 방식인 MixLoRA를 제안합니다. MixLoRA는 미세 조정 과정을 통해 고정된 사전 학습된 밀집 모델의 피드 포워드 네트워크 블록에 여러 LoRA 기반 전문가를 삽입하며, 일반적으로 사용되는 top-k 라우터를 활용합니다. 다른 LoRA 기반 MoE 방법과는 달리, MixLoRA는 독립적으로 구성 가능한 주의 레이어 LoRA 어댑터를 사용하여 모델 성능을 향상시키고, 전문가 구축을 위한 LoRA 및 그 변형의 사용을 지원하며, 라우터의 불균형 문제를 해결하기 위해 보조 로드 밸런스 손실을 적용합니다. 실험에서 MixLoRA는 단일 작업 및 다중 작업 학습 시나리오에서 모든 평가 메트릭에서 훌륭한 성능을 달성했습니다. m-LoRA 프레임워크 내에서 구현된 MixLoRA는 단일 24GB 소비자 등급 GPU에서 여러 전문가 혼합 모델의 병렬 미세 조정을 가능하게 하여 GPU 메모리 소비를 41\% 줄이고 훈련 과정 중 지연 시간을 17\% 줄입니다.
Li et al. (Sun,)은 이 질문을 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: