Los puntos clave no están disponibles para este artículo en este momento.
El modelado de imágenes enmascaradas (MIM), una forma de aprendizaje auto-supervisado, ha alcanzado un éxito significativo en la visión por computadora al mejorar las representaciones de imágenes utilizando datos no anotados. Los MIM tradicionales emplean típicamente una estrategia de muestreo aleatorio en la imagen. Sin embargo, esta técnica de enmascaramiento aleatorio puede no ser la mejor opción para la imagen médica, que posee características distintas diferentes de las imágenes naturales. En la imagen médica, particularmente en la patología, las características relacionadas con enfermedades suelen ser extremadamente escasas y localizadas, mientras que las regiones restantes parecen normales y no diferenciadas. Además, las imágenes médicas a menudo acompañan informes que indican directamente la ubicación de los cambios patológicos. Inspirados en esto, proponemos el Modelado de Imágenes Médicas Enmascaradas (MedIM), un enfoque novedoso, que a nuestro conocimiento, es la primera investigación que emplea informes radiológicos para guiar el enmascaramiento y restaurar las áreas informativas de las imágenes, alentando a la red a explorar las representaciones semánticas más fuertes de las imágenes médicas. Introducimos dos estrategias de enmascaramiento mutuas y comprensivas, enmascaramiento impulsado por conocimiento (KDM) y enmascaramiento impulsado por oraciones (SDM). KDM utiliza palabras de los Encabezados de Temas Médicos (MeSH) únicas de los informes radiológicos para identificar pistas de síntomas mapeadas a palabras MeSH (por ejemplo, cardíaco, edema, vascular, pulmonar) y guiar la generación de máscaras. Reconociendo que los informes radiológicos suelen comprender varias oraciones que detallan hallazgos variados, SDM integra información a nivel de oraciones para identificar regiones clave para el enmascaramiento. MedIM reconstruye imágenes informadas por este enmascaramiento a partir de los módulos KDM y SDM, promoviendo una representación médica de imágenes comprensiva y enriquecida. Nuestros extensos experimentos en siete tareas posteriores que cubren la clasificación de imágenes multi-etiqueta/clase, la segmentación de neumotórax y el análisis de imágenes e informes médicos demuestran que MedIM con enmascaramiento guiado por informes logra un rendimiento competitivo. Nuestro método supera sustancialmente el preentrenamiento de ImageNet, el preentrenamiento basado en MIM y los homólogos de preentrenamiento de informes de imágenes médicas. Los códigos están disponibles en https://github.com/YtongXie/MedIM.
Xie et al. (Sat,) estudiaron esta cuestión.