What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

CATP: Recorte de Tokens Adaptativo Contextual para un Aprendizaje Multimodal Eficiente y Mejorado en Contexto

Puntos clave

CATP mejora la eficiencia reduciendo el 77.8% de los tokens de imagen mientras mejora el rendimiento del modelo en un 0.6%.
El método logra una reducción promedio del 10.78% en la latencia de inferencia en varios puntos de referencia.
Dirigiéndose al aprendizaje multimodal en contexto, CATP supera las limitaciones de los métodos de recorte de imagen única existentes.
El recorte progresivo en dos etapas tiene en cuenta las complejas interacciones cruzadas, potenciando la aplicación práctica.

Resumen

Los modelos modernos de lenguaje-visión (LVLMs) convierten cada imagen de entrada en un gran conjunto de tokens, superando con creces el número de tokens de texto. Aunque esto mejora la percepción visual, introduce una severa redundancia en los tokens de imagen. Debido a que los tokens de imagen llevan información escasa, muchos añaden poco al razonamiento, pero aumentan considerablemente el costo de inferencia. Los métodos emergentes de recorte de tokens de imagen abordan este problema identificando los tokens más importantes y descartando el resto. Estos métodos pueden aumentar la eficiencia con solo una modesta pérdida de rendimiento. Sin embargo, la mayoría de ellos solo consideran tareas de imagen única y pasan por alto el aprendizaje multimodal en contexto (ICL), donde la redundancia es mayor y la eficiencia es más crítica. Los tokens redundantes debilitan la ventaja del ICL multimodal para una rápida adaptación al dominio y causan un rendimiento inestable. Aplicar los métodos de recorte existentes en este contexto conduce a grandes caídas en la precisión, exponiendo una clara brecha y la necesidad de nuevas técnicas. Por lo tanto, proponemos el Recorte de Tokens Adaptativo Contextual (CATP), un método de recorte sin entrenamiento dirigido al ICL multimodal. CATP consiste en dos etapas que realizan un recorte progresivo para tener en cuenta completamente las complejas interacciones cruzadas en la secuencia de entrada. Después de eliminar el 77.8\% de los tokens de imagen, CATP produce una ganancia de rendimiento promedio del 0.6\% sobre el modelo estándar en cuatro LVLMs y ocho puntos de referencia, superando notablemente todas las líneas base. Mientras tanto, mejora efectivamente la eficiencia al lograr una reducción promedio del 10.78\% en la latencia de inferencia. CATP mejora el valor práctico del ICL multimodal y sienta las bases para el progreso futuro en escenarios entrelazados de imagen y texto.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo