October 10, 2022

Sketch Transformer: Aprendizado Assimétrico de Desentrelaçamento a partir da Síntese Dinâmica

Key Points

Key points are not available for this paper at this time.

Abstract

O reconhecimento de esboços-fotos é um problema de correspondência cross-modal cujos conjuntos de consulta são imagens de esboços desenhadas por artistas ou amadores. Devido à significativa diferença de modalidade entre as duas modalidades, é desafiador extrair representações de características compartilhadas que sejam discriminativas. Trabalhos existentes focam em explorar características invariantes à modalidade para descobrir um espaço de incorporação compartilhado. No entanto, eles descartam pistas específicas da modalidade, resultando em perda de informação e diminuição do poder discriminatório das características. Este artigo propõe um novo método de aprendizado de desentrelaçamento assimétrico e síntese dinâmica no framework do transformer (SketchTrans) para lidar com a discrepância de modalidade combinando informações compartilhadas de modalidade com informações específicas da modalidade. Especificamente, um esquema de desentrelaçamento assimétrico é introduzido para decompor as características da foto em pistas relevantes ao esboço e pistas irrelevantes ao esboço, preservando a estrutura original do esboço. Usando as pistas irrelevantes ao esboço, traduzimos ainda mais o componente da modalidade de esboço para a representação da foto através da transferência de conhecimento, obtendo representações cross-modal com simetria de informações. Além disso, propomos uma modalidade auxiliar de esboço (A-sketch) dinamicamente atualizável gerada a partir da modalidade de foto para guiar o desentrelaçamento assimétrico em um único framework. Sob um framework de aprendizado conjunto multimodal, esta modalidade auxiliar aumenta a diversidade das amostras de treinamento e reduz a lacuna cross-modal. Realizamos extensos experimentos em três conjuntos de dados de recuperação baseados em esboços finamente detalhados, ou seja, PKU-Sketch, QMUL-ChairV2 e QMUL-ShoeV2, superando os state-of-the-art em várias métricas.

Bookmark

Sketch Transformer: Aprendizado Assimétrico de Desentrelaçamento a partir da Síntese Dinâmica

Key Points

Abstract

Cite This Study