What type of study is this?

September 10, 2025

Rumo a um Aprendizado Métrico Profundo Desentangled e Controlável com Decomposição de Conceitos Semelhante ao Humano

Key Points

A CMN efetivamente desentrelaça conceitos visuais, melhorando a interpretabilidade das embeddings de imagem.
Desempenho de ponta em aplicações de recuperação de imagem demonstra avanços significativos em relação aos métodos existentes.
O mecanismo de atenção cruzada associa vetores de conceito com características visuais regionais, melhorando o controle sobre as embeddings.
Inovações metodológicas permitem aplicações mais flexíveis e controláveis no aprendizado métrico profundo.

Abstract

O aprendizado métrico profundo (DML) demonstrou avanços significativos na aprendizagem de embeddings discriminativos para imagens, desempenhando um papel crucial em várias tarefas de visão. No entanto, os métodos existentes geralmente dependem de redes neurais profundas para extrair embeddings holísticos, que são desafiadores de desentrelaçar e interpretar. Para abordar essa questão, nos inspiramos na cognição humana, onde objetos são decompostos em conceitos distintos para uma melhor compreensão. Especificamente, propomos a rede de métricas de conceitos (CMNs) para alcançar DML desentangled e controlável. A CMN começa inicializando vetores de conceito aprendíveis para representar vários conceitos visuais. Esses vetores são então associados a características visuais regionais por meio de um mecanismo de atenção cruzada, garantindo que cada vetor corresponda a propriedades visuais específicas. Finalmente, os valores dos conceitos, determinados pela sua presença na imagem, formam a embedding de saída. Experimentos abrangentes demonstram que a CMN efetivamente desentranha conceitos visuais, com cada dimensão da embedding correspondendo a um conceito específico. Nosso método não apenas supera os métodos de ponta existentes na aplicação convencional de DML (ou seja, recuperação de imagem), mas também permite uma aplicação mais flexível e controlável. O código está disponível em https://github.com/shchen0001/CMN.

Bookmark

Rumo a um Aprendizado Métrico Profundo Desentangled e Controlável com Decomposição de Conceitos Semelhante ao Humano

Key Points

Abstract

Cite This Study