Informe técnico / preprint de EquiRoute. El enrutamiento de mezcla dispersa de expertos (MoE) mejora la capacidad del modelo mientras mantiene la computación por token manejable. En modelos de lenguaje multimodal grandes (MLLMs), el enrutamiento se realiza sobre un flujo de tokens compartido cuya composición de modalidades está altamente desequilibrada: las entradas visuales pueden contribuir con cientos de tokens, mientras que los mensajes de texto emparejados contribuyen sólo con unas pocas docenas. Bajo esta asimetría, el equilibrio de carga a nivel de token estándar está dominado por la modalidad mayoritaria, lo que da lugar a una utilización agregada de expertos que parece equilibrada mientras oculta la inequidad específica de modalidad. Este artículo estudia el enrutamiento equitativo por modalidad en capas de MoE dispersas compartidas y propone EquiRoute, un marco de enrutamiento ligero con tres componentes: Presupuestación de Tokens Guiada por Entropía (ETB), que utiliza la entropía de enrutamiento a nivel de modalidad para modular la presión de despacho; Reserva de Expertos Intermodal (CER), que introduce objetivos de capacidad suaves que reducen la escasez de modalidad minoritaria; y Enrutamiento Contrastivo por Modalidad (MCR), que fomenta distribuciones de enrutamiento distintas a nivel de modalidad mientras mantiene un grupo compartido de expertos. El Índice de Equidad de Modalidad (MEI) se define como un diagnóstico para la similitud intermodal en el acceso a expertos. En un entorno de dos modalidades con 16 expertos, aumentar la proporción de tokens de visión:texto de 4:1 a 32:1 bajo enrutamiento estándar reduce la participación de texto entre los cuatro expertos más cargados de 0.200 a 0.029 y disminuye el MEI de 0.875 a 0.250. Bajo la misma configuración sintética, EquiRoute aumenta el MEI a 0.938, 0.875, 0.750 y 0.625 en proporciones de 4:1, 8:1, 16:1 y 32:1, respectivamente. Estos resultados controlados cuantifican la escala del desequilibrio que motiva el método. EquiRoute se posiciona en relación con trabajos anteriores de enrutamiento en MoE dispersos y multimodal, y se proporciona un objetivo de entrenamiento completamente especificado, diagnósticos y protocolo de evaluación. DOI de archivo existente en OSF: 10.17605/OSF.IO/HFVBC; Página de archivo existente en OSF: https://osf.io/hfvbc/. Los archivos incluyen el PDF del informe técnico y el archivo tarball de LaTeX cuando está disponible.
Haopeng Jin (Mon,) estudió esta cuestión.