Los puntos clave no están disponibles para este artículo en este momento.
El ajuste de indicaciones es una forma efectiva de adaptar el modelo de lenguaje-visual preentrenado (VLM) a la tarea posterior utilizando tokens textuales relacionados con la tarea. El trabajo representativo basado en CoOp combina los tokens textuales aprendibles con los tokens de clase para obtener conocimiento textual específico. Sin embargo, el conocimiento textual específico tiene la peor generalización hacia las clases no vistas porque olvida el conocimiento textual general esencial que tiene una fuerte capacidad de generalización. Para abordar este problema, introducimos una nueva Optimización de Contexto Guiada por Conocimiento (KgCoOp) para mejorar la capacidad de generalización del ajuste de indicaciones aprendible para clases no vistas. La clave de KgCoOp es que el olvido del conocimiento esencial puede aliviarse reduciendo la discrepancia entre la indicación aprendible y la indicación elaborada a mano. Especialmente, KgCoOp minimiza la discrepancia entre las incrustaciones textuales generadas por indicaciones aprendidas y las indicaciones elaboradas a mano. Finalmente, agregar KgCoOp sobre la pérdida contrastiva puede crear una indicación discriminativa tanto para tareas vistas como no vistas. Una evaluación exhaustiva de varios puntos de referencia demuestra que la Optimización de Contexto Guiada por Conocimiento propuesta es un método eficiente para el ajuste de indicaciones, es decir, logra un mejor rendimiento con menos tiempo de entrenamiento.
Yao et al. (Jue,) estudiaron esta cuestión.