Como un tema de investigación prominente, la clasificación multi-modal multi-etiqueta (MvMlC) tiene como objetivo asignar múltiples etiquetas a muestras integrando información desde varias perspectivas. Sin embargo, en escenarios del mundo real, MvMlC enfrenta frecuentemente el desafío de aprendizaje de datos con vistas y etiquetas faltantes, típicamente resultantes de malfunciones de sensores, o el costoso y laborioso proceso de anotación manual. Además, aprender representaciones robustas que sean consistentes entre vistas y específicas para vistas individuales sigue siendo un desafío. Para abordar estos problemas, proponemos un nuevo marco de clasificación multi-modal multi-etiqueta incompleto doble basado en Desenredando Información Consistente y Específica (DCSI). Específicamente, empleamos un codificador de doble canal con una arquitectura idéntica pero objetivos distintos para extraer información consistente entre vistas e información única específica de cada vista, respectivamente. Mientras tanto, se construye un discriminador de vista para desacoplar estos dos tipos de información, facilitando la extracción de información pura consistente y específica. Además, diseñamos meticulosamente estrategias de fusión adaptadas a cada tipo de representación. Con respecto a las representaciones consistentes, proponemos un mecanismo de fusión consciente de confianza dinámica que evalúa la fiabilidad de las representaciones de cada vista en relación con la tarea de clasificación, permitiendo al modelo priorizar información proveniente de representaciones de confianza. Para las representaciones específicas, a la luz de su propiedad complementaria en lugar de redundante, sugerimos tratar tales representaciones de cada vista por igual para asegurar la equidad. A través de validación experimental en cinco conjuntos de datos, los resultados demuestran que nuestro método supera a los métodos existentes de última generación.
Wen et al. (Jue,) estudiaron esta cuestión.