O aprendizado métrico profundo (DML) demonstrou avanços significativos na aprendizagem de embeddings discriminativos para imagens, desempenhando um papel crucial em várias tarefas de visão. No entanto, os métodos existentes geralmente dependem de redes neurais profundas para extrair embeddings holísticos, que são desafiadores de desentrelaçar e interpretar. Para abordar essa questão, nos inspiramos na cognição humana, onde objetos são decompostos em conceitos distintos para uma melhor compreensão. Especificamente, propomos a rede de métricas de conceitos (CMNs) para alcançar DML desentangled e controlável. A CMN começa inicializando vetores de conceito aprendíveis para representar vários conceitos visuais. Esses vetores são então associados a características visuais regionais por meio de um mecanismo de atenção cruzada, garantindo que cada vetor corresponda a propriedades visuais específicas. Finalmente, os valores dos conceitos, determinados pela sua presença na imagem, formam a embedding de saída. Experimentos abrangentes demonstram que a CMN efetivamente desentranha conceitos visuais, com cada dimensão da embedding correspondendo a um conceito específico. Nosso método não apenas supera os métodos de ponta existentes na aplicação convencional de DML (ou seja, recuperação de imagem), mas também permite uma aplicação mais flexível e controlável. O código está disponível em https://github.com/shchen0001/CMN.
Chen et al. (Wed,) estudaram essa questão.