Los puntos clave no están disponibles para este artículo en este momento.
El aumento de pares de imagen-texto débilmente etiquetados a gran escala ha facilitado enormemente el desarrollo de modelos de visión-lenguaje a gran escala (por ejemplo, CLIP), los cuales han mostrado un rendimiento impresionante de generalización en una serie de tareas posteriores. Sin embargo, el tamaño masivo del modelo y la escasez de datos disponibles limitan sus aplicaciones para ajustar todo el modelo en tareas posteriores. Además, ajustar completamente el modelo fácilmente olvida el conocimiento esencial genérico adquirido en la etapa de preentrenamiento y se ajusta demasiado a los datos posteriores. Para permitir una alta eficiencia al adaptar estos grandes modelos de visión-lenguaje (por ejemplo, CLIP) para realizar el reconocimiento continuo de lengua de signos (CSLR) mientras se preserva su generalizabilidad, proponemos una nueva estrategia (AdaptSign). Especialmente, CLIP se adopta como la columna vertebral visual para extraer características cuadro a cuadro cuyos parámetros están fijos, y se introduce un conjunto de módulos aprendibles para modelar variaciones espaciales de signos o capturar movimientos temporales de signos. Los módulos adicionales introducidos son bastante livianos, poseyendo solo un 3.2% de cálculos extra con alta eficiencia. El conocimiento genérico adquirido en la etapa de preentrenamiento se preserva bien en la columna vertebral congelada de CLIP en este proceso. Experimentos extensivos muestran que, a pesar de ser eficiente, AdaptSign es capaz de demostrar un rendimiento superior en una serie de benchmarks de CSLR, incluyendo PHOENIX14, PHOENIX14-T, CSL-Daily y CSL, en comparación con métodos existentes. Visualizaciones muestran que AdaptSign podría aprender a prestar atención de manera dinámica a las regiones espaciales informativas y trayectorias intercuadro en videos de signos.
Hu et al. (Thu,) estudiaron esta cuestión.