Los Modelos Pequeños de Visión-Lenguaje (VLMs, por sus siglas en inglés) ofrecen una alternativa computacionalmente eficiente a modelos más grandes, a costa de habilidades de generalización más débiles y rendimiento en tareas posteriores. Estas limitaciones podrían abordarse mediante técnicas de escalamiento en el tiempo de prueba, pero los métodos existentes suelen ser computacionalmente exigentes, contradiciendo los objetivos de diseño eficientes en recursos de los modelos pequeños. Para abordar estas limitaciones, proponemos dos estrategias novedosas y eficientes de escalamiento en el tiempo de prueba que aprovechan las características internas del modelo en lugar de la supervisión externa: (i) Aumento en el Tiempo de Prueba (TTAug), que genera múltiples entradas aumentadas y agrega salidas a nivel de token sin actualizaciones de parámetros, y (ii) Adaptación en el Tiempo de Prueba (TTAdapt), que ajusta los parámetros del modelo durante la inferencia utilizando pseudolabels basados en consenso de TTAug. A través de experimentos extensivos en nueve benchmarks, demostramos mejoras de rendimiento consistentes mientras mantenemos la eficiencia computacional adecuada para entornos con recursos limitados. La generalidad de nuestro enfoque se demuestra tanto dentro de modelos a diferentes escalas como a través de diferentes VLMs sin ajuste adicional.
Kaya et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: