August 27, 2024Open Access

Adaptando o Modelo Segment Anything para Detecção de Objetos Salientes Multi-modais com Orientação de Fusão de Recursos Semânticos

Key Points

Key points are not available for this paper at this time.

Abstract

Embora a maioria dos métodos existentes de detecção de objetos salientes multi-modais (SOD) demonstre eficácia ao treinar modelos do zero, a limitada quantidade de dados multi-modais impede que esses métodos alcancem a optimalidade. Neste artigo, propomos uma nova estrutura para explorar e explorar a poderosa representação de características e a capacidade de generalização zero-shot do Modelo Segment Anything (SAM) pré-treinado para SOD multi-modal. Embora funcione como um modelo fundamental de visão recente, fazer com que o SAM, que é independente de classe, compreenda e detecte objetos salientes com precisão não é trivial, especialmente em cenas desafiadoras. Para isso, desenvolvemos o SAM com orientação de fusão de características semânticas (Sammese), que incorpora conhecimento específico de saliência multi-modal ao SAM para adaptá-lo a tarefas de SOD multi-modal. No entanto, é difícil para um SAM treinado com dados de um único modal minerar diretamente os benefícios complementares das entradas multi-modais e utilizá-las de forma abrangente para alcançar previsões de saliência precisas. Para abordar essas questões, primeiro projetamos um módulo de fusão complementar multi-modal para extrair características semânticas robustas multi-modais integrando informações de pares de imagens visíveis e térmicas ou de profundidade. Em seguida, alimentamos as características semânticas multi-modais extraídas tanto no codificador de imagem do SAM quanto no decodificador de máscara para ajuste fino e prompting, respectivamente. Especificamente, no codificador de imagem, um adaptador multi-modal é proposto para adaptar o SAM de um único modal à informação multi-modal. No decodificador de máscara, uma estratégia de geração de prompt semântico-geométrico é proposta para produzir embeddings correspondentes com vários indícios de saliência. Experimentos extensivos em benchmarks SOD RGB-D e RGB-T mostram a eficácia da estrutura proposta. O código estará disponível em https: //github. com/Angknpng/Sammese.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper