Apresentamos o Adaptive-K routing, um método que seleciona dinamicamente o número de especialistas em modelos Mixture-of-Experts (MoE) com base na entropia do roteamento. Em vez de usar um número fixo de top-k especialistas por token, nossa abordagem utiliza menos especialistas quando o roteador está confiante (baixa entropia) e mais especialistas quando está incerto (alta entropia). Resultados em modelos MoE de produção: - Mixtral 8x7B: redução de 52,5% no processamento - Qwen-MoE: redução de 32,4% no processamento - OLMoE-1B-7B: redução de 24,7% no processamento Quando combinado com quantização e decodificação especulativa, alcançamos até 96% de economia total de processamento por meio de composição multiplicativa. Código: https://github.com/Gabrobals/sbm-efficient PyPI: pip install adaptive-k-routing
Gabriele Balsamo (Sex,) estudou esta questão.