Aprovechando la arquitectura del Transformador y el proceso de difusión, los modelos DiT de video han emergido como un enfoque dominante para la generación de video de alta calidad. Sin embargo, su proceso de desruido iterativo en múltiples pasos incurre en altos costos computacionales y latencia en la inferencia. El almacenamiento en caché, un método de optimización ampliamente adoptado en los modelos DiT, aprovecha la redundancia en el proceso de difusión para omitir cálculos en diferentes granularidades (por ejemplo, paso, cfg, bloque). Sin embargo, los métodos de almacenamiento en caché existentes están limitados a estrategias de una sola granularidad, luchando por equilibrar la calidad de generación y la velocidad de inferencia de manera flexible. En este trabajo, proponemos MixCache, un marco basado en caché sin entrenamiento para una inferencia de video DiT eficiente. Primero distingue la interferencia y el límite entre diferentes estrategias de caché, y luego introduce una estrategia de activación de caché consciente del contexto para determinar cuándo se debe habilitar la caché, junto con una estrategia de decisión de caché híbrida adaptativa para seleccionar dinámicamente la granularidad de caché óptima. Experimentos extensos en diversos modelos demuestran que MixCache puede acelerar significativamente la generación de video (por ejemplo, 1.94 veces más rápido en Wan 14B, 1.97 veces más rápido en HunyuanVideo) mientras entrega tanto una calidad de generación superior como una eficiencia de inferencia en comparación con métodos base.
Wei et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: