Los modelos modernos de lenguaje-visión (LVLMs) convierten cada imagen de entrada en un gran conjunto de tokens, superando con creces el número de tokens de texto. Aunque esto mejora la percepción visual, introduce una severa redundancia en los tokens de imagen. Debido a que los tokens de imagen llevan información escasa, muchos añaden poco al razonamiento, pero aumentan considerablemente el costo de inferencia. Los métodos emergentes de recorte de tokens de imagen abordan este problema identificando los tokens más importantes y descartando el resto. Estos métodos pueden aumentar la eficiencia con solo una modesta pérdida de rendimiento. Sin embargo, la mayoría de ellos solo consideran tareas de imagen única y pasan por alto el aprendizaje multimodal en contexto (ICL), donde la redundancia es mayor y la eficiencia es más crítica. Los tokens redundantes debilitan la ventaja del ICL multimodal para una rápida adaptación al dominio y causan un rendimiento inestable. Aplicar los métodos de recorte existentes en este contexto conduce a grandes caídas en la precisión, exponiendo una clara brecha y la necesidad de nuevas técnicas. Por lo tanto, proponemos el Recorte de Tokens Adaptativo Contextual (CATP), un método de recorte sin entrenamiento dirigido al ICL multimodal. CATP consiste en dos etapas que realizan un recorte progresivo para tener en cuenta completamente las complejas interacciones cruzadas en la secuencia de entrada. Después de eliminar el 77.8\% de los tokens de imagen, CATP produce una ganancia de rendimiento promedio del 0.6\% sobre el modelo estándar en cuatro LVLMs y ocho puntos de referencia, superando notablemente todas las líneas base. Mientras tanto, mejora efectivamente la eficiencia al lograr una reducción promedio del 10.78\% en la latencia de inferencia. CATP mejora el valor práctico del ICL multimodal y sienta las bases para el progreso futuro en escenarios entrelazados de imagen y texto.
Li et al. (Mon,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: