A segmentação de vídeo cirúrgico é uma tarefa crítica na cirurgia assistida por computador, essencial para aprimorar a qualidade cirúrgica e os resultados para os pacientes. Recentemente, a estrutura do Segment Anything Model 2 (SAM2) demonstrou avanços notáveis tanto em segmentação de imagens quanto de vídeos. No entanto, as limitações inerentes ao design de memória de seleção gananciosa do SAM2 são amplificadas pelas propriedades únicas dos vídeos cirúrgicos - movimento rápido dos instrumentos, oclusões frequentes e interação complexa entre instrumentos e tecidos - resultando em desempenho reduzido na segmentação de vídeos complexos e longos. Para abordar esses desafios, introduzimos o MA-SAM2, uma estratégia de segmentação de objetos em vídeo sem treinamento, com novos modelos de memória resilientes a oclusões e conscientes do contexto. O MA-SAM2 apresenta forte robustez contra oclusões e interações decorrentes de movimentos complexos dos instrumentos, enquanto mantém a precisão na segmentação de objetos ao longo dos vídeos. A utilização de uma inferência de múltiplos alvos em um único loop e um único prompt aumenta ainda mais a eficiência do processo de rastreamento em vídeos com múltiplos instrumentos. Sem introduzir parâmetros adicionais ou requerer mais treinamento, o MA-SAM2 alcançou melhorias de desempenho de 4,36% e 6,1% sobre o SAM2 nos conjuntos de dados EndoVis2017 e EndoVis2018, respectivamente, demonstrando seu potencial para aplicações cirúrgicas práticas.
Yin et al. (Sun,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: