Key points are not available for this paper at this time.
Um dos principais desafios na correspondência de imagens e texto é que eles têm distribuições de dados e representações de características intrinsecamente diferentes. A maioria das abordagens existentes se baseia em incorporação ou classificação, sendo a primeira mapeando instâncias de imagem e texto em um espaço de incorporação comum para medição de distância, e a segunda considerando a correspondência de imagem-texto como um problema de classificação binária. No entanto, nenhuma dessas abordagens consegue equilibrar bem a precisão da correspondência e a complexidade do modelo. Propomos uma nova estrutura que alcança um desempenho notável de correspondência com uma complexidade de modelo aceitável. Especificamente, na fase de treinamento, propomos uma nova Rede de Fusão de Tensor Multimodal (MTFN) para aprender explicitamente uma função de similaridade imagem-texto precisa com fusão de tensor baseada em classificação em vez de buscar um espaço de incorporação comum para cada instância de imagem-texto. Em seguida, durante o teste, implantamos um esquema genérico de Reclassificação Cross-modal (RR) para refinamento sem exigir um procedimento de treinamento adicional. Extensos experimentos em dois conjuntos de dados demonstram que nossa MTFN-RR atinge consistentemente o desempenho de correspondência de última geração com uma complexidade de tempo muito menor.
Wang et al. (Terça-feira,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: