September 28, 2025Open Access

MixCache: Mezcla de Caché para Aceleración de Transformadores de Difusión de Video

Puntos clave

MixCache mejora significativamente la velocidad de generación de video mientras mantiene salidas de alta calidad, logrando una aceleración de 1.94× en Wan 14B.
El método emplea una estrategia de activación de caché consciente del contexto para optimizar las decisiones de caché durante la inferencia de video.
Este enfoque utiliza estrategias de caché híbridas adaptativas para equilibrar de manera flexible entre las granularidades de caché y el rendimiento.
Pruebas extensas en varios modelos muestran que MixCache supera a los métodos existentes tanto en eficiencia como en calidad.

Resumen

Aprovechando la arquitectura del Transformador y el proceso de difusión, los modelos DiT de video han emergido como un enfoque dominante para la generación de video de alta calidad. Sin embargo, su proceso de desruido iterativo en múltiples pasos incurre en altos costos computacionales y latencia en la inferencia. El almacenamiento en caché, un método de optimización ampliamente adoptado en los modelos DiT, aprovecha la redundancia en el proceso de difusión para omitir cálculos en diferentes granularidades (por ejemplo, paso, cfg, bloque). Sin embargo, los métodos de almacenamiento en caché existentes están limitados a estrategias de una sola granularidad, luchando por equilibrar la calidad de generación y la velocidad de inferencia de manera flexible. En este trabajo, proponemos MixCache, un marco basado en caché sin entrenamiento para una inferencia de video DiT eficiente. Primero distingue la interferencia y el límite entre diferentes estrategias de caché, y luego introduce una estrategia de activación de caché consciente del contexto para determinar cuándo se debe habilitar la caché, junto con una estrategia de decisión de caché híbrida adaptativa para seleccionar dinámicamente la granularidad de caché óptima. Experimentos extensos en diversos modelos demuestran que MixCache puede acelerar significativamente la generación de video (por ejemplo, 1.94 veces más rápido en Wan 14B, 1.97 veces más rápido en HunyuanVideo) mientras entrega tanto una calidad de generación superior como una eficiencia de inferencia en comparación con métodos base.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo