Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje a gran escala en rápido crecimiento están ofreciendo un rendimiento sin precedentes en casi todas las tareas de procesamiento de lenguaje natural. Sin embargo, la efectividad de los grandes modelos de lenguaje depende de un número de parámetros que aumenta exponencialmente. La abrumadora complejidad de cálculo incurre en una alta latencia de inferencia que afecta negativamente la experiencia del usuario. Los métodos existentes para mejorar la eficiencia de la inferencia, como el paralelismo de tensores y la cuantización, tienen como objetivo reducir la latencia de cálculo por capa, pero pasan por alto la latencia acumulativa debido al número de capas. Los trabajos recientes sobre la reducción de la latencia acumulativa a través de la eliminación de capas, sin embargo, llevan a una caída significativa en el rendimiento. Motivados por la similitud de las entradas entre capas adyacentes, proponemos identificar capas cuasi-independientes, que pueden ser calculadas concurrentemente para disminuir significativamente la latencia de inferencia. También introducimos una técnica de bypass para mitigar el efecto de la pérdida de información. Experimentos empíricos del enfoque propuesto en los modelos LLaMA confirman que el Cálculo Concurrente de Capas Cuasi-Independentes (CQIL) puede reducir la latencia en hasta un 48.3% en el modelo LLaMA-33B, mientras mantiene un nivel de rendimiento cercano.
Zou et al. (Martes,) estudiaron esta cuestión.