What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Escalamiento Eficiente en el Tiempo de Prueba para Modelos Pequeños de Visión-Lenguaje

Puntos clave

Los enfoques propuestos mejoran el rendimiento de modelos pequeños de visión-lenguaje sin costos computacionales elevados.
El aumento en el tiempo de prueba crea múltiples variaciones de entrada, mejorando la fiabilidad de la salida del modelo durante la inferencia.
La adaptación en el tiempo de prueba ajusta los parámetros del modelo en función de la salida de consenso, lo que conduce a mejores resultados en tareas.
Los resultados indican aumentos significativos en el rendimiento a través de nueve benchmarks con eficiencia de recursos mantenida.

Resumen

Los Modelos Pequeños de Visión-Lenguaje (VLMs, por sus siglas en inglés) ofrecen una alternativa computacionalmente eficiente a modelos más grandes, a costa de habilidades de generalización más débiles y rendimiento en tareas posteriores. Estas limitaciones podrían abordarse mediante técnicas de escalamiento en el tiempo de prueba, pero los métodos existentes suelen ser computacionalmente exigentes, contradiciendo los objetivos de diseño eficientes en recursos de los modelos pequeños. Para abordar estas limitaciones, proponemos dos estrategias novedosas y eficientes de escalamiento en el tiempo de prueba que aprovechan las características internas del modelo en lugar de la supervisión externa: (i) Aumento en el Tiempo de Prueba (TTAug), que genera múltiples entradas aumentadas y agrega salidas a nivel de token sin actualizaciones de parámetros, y (ii) Adaptación en el Tiempo de Prueba (TTAdapt), que ajusta los parámetros del modelo durante la inferencia utilizando pseudolabels basados en consenso de TTAug. A través de experimentos extensivos en nueve benchmarks, demostramos mejoras de rendimiento consistentes mientras mantenemos la eficiencia computacional adecuada para entornos con recursos limitados. La generalidad de nuestro enfoque se demuestra tanto dentro de modelos a diferentes escalas como a través de diferentes VLMs sin ajuste adicional.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo