Los puntos clave no están disponibles para este artículo en este momento.
Abordar las modalidades faltantes presenta un desafío crítico en el aprendizaje multimodal. Los enfoques actuales se centran en desarrollar modelos que puedan manejar entradas incompletas en cuanto a modalidades durante la inferencia, asumiendo que el conjunto completo de modalidades está disponible para todos los datos durante el entrenamiento. Esta dependencia de los datos con modalidades completas para el entrenamiento limita el uso de abundantes muestras incompletas que a menudo se encuentran en entornos prácticos. En este artículo, proponemos un modelo universal robusto con reconstrucción de modalidades y personalización del modelo, que puede abordar de manera efectiva la modalidad faltante en las etapas de entrenamiento y prueba. Nuestro método aprovecha un autoencoder enmascarado multimodal para reconstruir la modalidad faltante y los parches enmascarados simultáneamente, incorporando un innovador mecanismo de aproximación de distribución para utilizar completamente tanto los datos con modalidades completas como incompletas. Las modalidades reconstruidas contribuyen a nuestro esquema de co-destilación de datos y modelos diseñado para guiar el aprendizaje del modelo en presencia de modalidades faltantes. Además, proponemos una hiperred impulsada por CLIP para personalizar los parámetros parciales del modelo, lo que permite al modelo adaptarse a cada escenario distinto de modalidad faltante. Nuestro método ha sido ampliamente validado en dos puntos de referencia de segmentación de tumores cerebrales. Los resultados experimentales demuestran el rendimiento prometedor de nuestro método, que supera consistentemente los enfoques anteriores de última generación en condiciones de modalidad faltante en todas las etapas con diferentes razones de falta. El código estará disponible.
Zhao et al. (Martes,) estudiaron esta cuestión.