La llegada de modelos de aprendizaje profundo multimodal, como CLIP, ha desbloqueado nuevas fronteras en una amplia gama de aplicaciones, desde la comprensión de imagen-texto hasta tareas de clasificación. Sin embargo, estos modelos no son seguros frente a ataques adversariales, especialmente ataques de puerta trasera, que pueden manipular sutilmente el comportamiento del modelo. Además, los métodos de defensa existentes suelen implicar entrenamiento desde cero o ajuste fino utilizando un gran conjunto de datos sin identificar las etiquetas específicas que se ven afectadas. En este estudio, introducimos una estrategia innovadora para mejorar la robustez de los modelos de aprendizaje contrastivo multimodal contra tales ataques. En particular, dado un modelo CLIP envenenado, nuestro enfoque puede identificar el desencadenante de la puerta trasera y señalar de manera eficiente las muestras y etiquetas víctimas. A tal fin, se presenta un “oráculo” de segmentación de imágenes como supervisor para la salida del CLIP envenenado. Desarrollamos dos algoritmos para rectificar el modelo envenenado: (1) diferenciar entre el conocimiento de CLIP y el del Oráculo para identificar posibles desencadenantes; (2) señalar las etiquetas afectadas y las muestras víctimas, y curar un conjunto de datos compacto para el ajuste fino. Con este conocimiento, podemos rectificar el modelo CLIP envenenado para negar los efectos de la puerta trasera. Amplios experimentos en bancos de pruebas de reconocimiento visual demuestran que nuestra estrategia es efectiva en la defensa contra puertas traseras basada en CLIP.
Hossain et al. (Sat,) estudiaron esta cuestión.