Los puntos clave no están disponibles para este artículo en este momento.
Como un área emergente, los modelos de visión-lenguaje preentrenados basados en CLIP pueden facilitar fácilmente tareas posteriores a través de la adaptación en cero disparos o pocos disparos. Sin embargo, aún enfrentan desafíos críticos en la generalización en tiempo de prueba debido a los cambios entre las distribuciones de datos de entrenamiento y prueba, lo que obstaculiza la mejora del rendimiento. Para abordar este problema crucial, los trabajos más recientes han introducido técnicas de Adaptación en Tiempo de Prueba (TTA) a CLIP que aprenden dinámicamente indicaciones de texto utilizando solo muestras de prueba. Sin embargo, su capacidad de aprendizaje limitada debido a la falta de información de modalidad visual y la subutilización del conocimiento en muestras de prueba previamente vistas resultan en un rendimiento reducido. En este artículo, proponemos un nuevo método de promoción en línea adaptativa dual-modal y retención de conocimiento llamado DART para superar estos desafíos. Para aumentar la capacidad de aprendizaje, DART captura conocimiento de cada muestra de prueba aprendiendo indicaciones de texto específicas de la clase y indicaciones de imagen a nivel de instancia. Adicionalmente, para aprovechar completamente el conocimiento de muestras de prueba previamente vistas, DART utiliza indicaciones de retención de conocimiento dual-modal para retener adaptativamente el conocimiento adquirido, mejorando así las predicciones en muestras de prueba subsecuentes. Experimentos extensivos en varios puntos de referencia a gran escala demuestran la efectividad de nuestro DART propuesto frente a métodos de última generación.
Liu et al. (Sun,) estudiaron esta cuestión.