June 1, 2023

Máscara DINO: Rumo a uma Estrutura Unificada Baseada em Transformadores para Detecção e Segmentação de Objetos

Key Points

Key points are not available for this paper at this time.

Abstract

Neste artigo, apresentamos a Máscara DINO, uma estrutura unificada para detecção e segmentação de objetos. A Máscara DINO estende o DINO (DETR com Caixas de Ancoragem de Denoising Melhoradas) ao adicionar um ramo de predição de máscara que suporta todas as tarefas de segmentação de imagem (instância, panorâmica e semântica). Ela utiliza as incorporações de consulta do DINO para fazer um produto escalar com um mapa de incorporação de pixel de alta resolução para prever um conjunto de máscaras binárias. Alguns componentes-chave no DINO são estendidos para segmentação através de uma arquitetura e processo de treinamento compartilhados. A Máscara DINO é simples, eficiente e escalável, e pode beneficiar-se de conjuntos de dados conjuntos de detecção e segmentação em larga escala. Nossos experimentos mostram que a Máscara DINO supera significativamente todos os métodos de segmentação especializados existentes, tanto em uma base ResNet-50 quanto em um modelo pré-treinado com backbone SwinL. Notavelmente, a Máscara DINO estabelece os melhores resultados até agora em segmentação de instância (54,5 AP no COCO), segmentação panorâmica (59,4 PQ no COCO) e segmentação semântica (60,8 mIoU no ADE20K) entre modelos com menos de um bilhão de parâmetros. O código está disponível em https://github.com/IDEA-Research/MaskDINO.

Perguntar à IA

Bookmark