March 14, 2024Open Access

VM-UNET-V2 Repensando Vision Mamba UNet para la Segmentación de Imágenes Médicas

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En el campo de la segmentación de imágenes médicas, se han investigado a fondo modelos basados tanto en CNN como en Transformers. Sin embargo, las CNN tienen capacidades de modelado limitadas para dependencias de largo alcance, lo que dificulta explotar completamente la información semántica dentro de las imágenes. Por otro lado, la complejidad computacional cuadrática representa un desafío para los Transformers. Recientemente, los Modelos de Espacio de Estado (SSMs), como Mamba, han sido reconocidos como un método prometedor. No solo demuestran un rendimiento superior en el modelado de interacciones a largo alcance, sino que también preservan una complejidad computacional lineal. Inspirados por la arquitectura de Mamba, proponemos Vison Mamba-UNetV2, se introduce el Bloque de Espacio de Estado Visual (VSS) para capturar información contextual extensa, y la Infusión de Semántica y Detalles (SDI) se introduce para aumentar la infusión de características de bajo y alto nivel. Realizamos experimentos exhaustivos en los conjuntos de datos públicos ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir, CVC-ColonDB y ETIS-LaribPolypDB. Los resultados indican que VM-UNetV2 exhibe un rendimiento competitivo en tareas de segmentación de imágenes médicas. Nuestro código está disponible en https://github.com/nobodyplayer1/VM-UNetV2.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo