What question did this study set out to answer?

Esta pesquisa visa melhorar a eficiência dos modelos Mixture-of-Experts ao selecionar dinamicamente o número de especialistas com base na entropia do roteamento.

January 20, 2026Open Access

Seleção Dinâmica de Especialistas Guiada por Entropia em Modelos Mixture-of-Experts

Key Points

Esta pesquisa visa melhorar a eficiência dos modelos Mixture-of-Experts ao selecionar dinamicamente o número de especialistas com base na entropia do roteamento.
Desenvolveu o Adaptive-K routing para ajustar dinamicamente a seleção de especialistas.
Utilizou a entropia do roteamento para determinar o nível de confiança do modelo.
Comparou o desempenho em diversos sistemas MoE, incluindo Mixtral, Qwen-MoE e OLMoE.
Alcançou redução de 52,5% no processamento com Mixtral 8x7B.
Obteve redução de 32,4% no processamento com Qwen-MoE.
Realizou redução de 24,7% no processamento com OLMoE-1B-7B.
Os métodos combinados proporcionaram até 96% de economia total de processamento por composição multiplicativa.

Abstract

Apresentamos o Adaptive-K routing, um método que seleciona dinamicamente o número de especialistas em modelos Mixture-of-Experts (MoE) com base na entropia do roteamento. Em vez de usar um número fixo de top-k especialistas por token, nossa abordagem utiliza menos especialistas quando o roteador está confiante (baixa entropia) e mais especialistas quando está incerto (alta entropia). Resultados em modelos MoE de produção: - Mixtral 8x7B: redução de 52,5% no processamento - Qwen-MoE: redução de 32,4% no processamento - OLMoE-1B-7B: redução de 24,7% no processamento Quando combinado com quantização e decodificação especulativa, alcançamos até 96% de economia total de processamento por meio de composição multiplicativa. Código: https://github.com/Gabrobals/sbm-efficient PyPI: pip install adaptive-k-routing

Seleção Dinâmica de Especialistas Guiada por Entropia em Modelos Mixture-of-Experts

Key Points

Abstract

Cite This Study