What question did this study set out to answer?

El objetivo es desarrollar un marco que maneje efectivamente las vistas y etiquetas faltantes en la clasificación multi-modal multi-etiqueta.

February 26, 2026

Desenredando Información Consistente y Específica para Clasificación Multi-Modal Multi-Etiqueta Incompleta Doblemente

Puntos clave

El objetivo es desarrollar un marco que maneje efectivamente las vistas y etiquetas faltantes en la clasificación multi-modal multi-etiqueta.
Se propuso un marco de clasificación multi-modal multi-etiqueta incompleto doble basado en DCSI.
Se utilizó un codificador de doble canal para extraer información consistente y específica de vistas.
Se construyó un discriminador de vista para desacoplar representaciones consistentes y específicas.
Se diseñaron estrategias de fusión adaptadas para ambos tipos de representación.
El método supera a los enfoques existentes de última generación en cinco conjuntos de datos.
Se demostró una mayor fiabilidad en la clasificación de muestras con información faltante.

Resumen

Como un tema de investigación prominente, la clasificación multi-modal multi-etiqueta (MvMlC) tiene como objetivo asignar múltiples etiquetas a muestras integrando información desde varias perspectivas. Sin embargo, en escenarios del mundo real, MvMlC enfrenta frecuentemente el desafío de aprendizaje de datos con vistas y etiquetas faltantes, típicamente resultantes de malfunciones de sensores, o el costoso y laborioso proceso de anotación manual. Además, aprender representaciones robustas que sean consistentes entre vistas y específicas para vistas individuales sigue siendo un desafío. Para abordar estos problemas, proponemos un nuevo marco de clasificación multi-modal multi-etiqueta incompleto doble basado en Desenredando Información Consistente y Específica (DCSI). Específicamente, empleamos un codificador de doble canal con una arquitectura idéntica pero objetivos distintos para extraer información consistente entre vistas e información única específica de cada vista, respectivamente. Mientras tanto, se construye un discriminador de vista para desacoplar estos dos tipos de información, facilitando la extracción de información pura consistente y específica. Además, diseñamos meticulosamente estrategias de fusión adaptadas a cada tipo de representación. Con respecto a las representaciones consistentes, proponemos un mecanismo de fusión consciente de confianza dinámica que evalúa la fiabilidad de las representaciones de cada vista en relación con la tarea de clasificación, permitiendo al modelo priorizar información proveniente de representaciones de confianza. Para las representaciones específicas, a la luz de su propiedad complementaria en lugar de redundante, sugerimos tratar tales representaciones de cada vista por igual para asegurar la equidad. A través de validación experimental en cinco conjuntos de datos, los resultados demuestran que nuestro método supera a los métodos existentes de última generación.

Me gusta

Guardar

Me gusta

Guardar

Desenredando Información Consistente y Específica para Clasificación Multi-Modal Multi-Etiqueta Incompleta Doblemente

Puntos clave

Resumen

Cite This Study