Los puntos clave no están disponibles para este artículo en este momento.
El Modelo de Segmentación de Cualquier Cosa (SAM) marca un hito notable en los modelos de segmentación, destacado por sus robustas capacidades de cero disparos y su habilidad para manejar diversos comandos. SAM sigue un proceso que separa la segmentación interactiva en preprocesamiento de imágenes a través de un gran codificador e inferencia interactiva mediante un decodificador ligero, asegurando un rendimiento eficiente en tiempo real. Sin embargo, SAM enfrenta problemas de estabilidad en muestras desafiantes en este proceso. Estos problemas surgen de dos factores principales. En primer lugar, el preprocesamiento de imágenes impide que SAM utilice dinámicamente estrategias de zoom en el nivel de imagen para reenfocar en el objeto objetivo durante la interacción. En segundo lugar, el decodificador ligero tiene dificultades para integrar suficientemente la información interactiva con las incrustaciones de la imagen. Para abordar estas dos limitaciones, proponemos FocSAM con un proceso rediseñado en dos aspectos clave. Primero, proponemos Atención Multi-cabezal de Ventana Dinámica (Dwin-MSA) para reenfocar dinámicamente las incrustaciones de imagen de SAM en el objeto objetivo. Dwin-MSA localiza los cálculos de atención alrededor del objeto objetivo, mejorando las incrustaciones relacionadas con el objeto con un mínimo coste computacional. Segundo, proponemos ReLU Dinámica por Pixel (P-DyReLU) para permitir una integración suficiente de la información interactiva a partir de unos pocos clics iniciales que tienen un impacto significativo en los resultados de segmentación generales. Experimentalmente, FocSAM aumenta el rendimiento de segmentación interactiva de SAM para igualar el método de última generación existente en calidad de segmentación, requiriendo solo alrededor del 5.6% del tiempo de inferencia de este método en CPUs.
You et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: