Key points are not available for this paper at this time.
Agrupamento e reconhecimento são componentes importantes da compreensão de cenas visuais, por exemplo, para detecção de objetos e segmentação semântica. Com sistemas de aprendizado profundo de ponta a ponta, o agrupamento de regiões de imagem normalmente ocorre implicitamente por meio de supervisão de cima para baixo a partir de rótulos de reconhecimento em nível de pixel. Em vez disso, neste artigo, propomos reintegrar o mecanismo de agrupamento nas redes profundas, o que permite que segmentos semânticos emerjam automaticamente apenas com supervisão textual. Propomos um Transformador de Visão de Agrupamento hierárquico (GroupViT), que vai além da representação da estrutura de grade regular e aprende a agrupar regiões de imagem em segmentos de formato arbitrário, progressivamente maiores. Treinamos o GroupViT em conjunto com um codificador de texto em um conjunto de dados de imagem-texto em larga escala por meio de perdas contrastivas. Com apenas supervisão textual e sem anotações em nível de pixel, o GroupViT aprende a agrupar regiões semânticas e transfere com sucesso para a tarefa de segmentação semântica de forma zero-shot, ou seja, sem qualquer ajuste fino adicional. Ele alcança uma precisão zero-shot de 52,3% mIoU nos conjuntos de dados PASCAL VOC 2012 e 22,4% mIoU nos conjuntos de dados PASCAL Context, e apresenta desempenho competitivo em relação a métodos de transfer learning de última geração que requerem níveis maiores de supervisão. Damos acesso ao nosso código em https://github.com/NVlabs/GroupViT.
Xu et al. (Ter,) estudaram esta questão.