Key points are not available for this paper at this time.
Em tarefas de classificação visual, é difícil perceber as diferenças sutis de uma espécie para outra em raças semelhantes. Esse problema desafiador é geralmente conhecido como Classificação Visual Fina (FGVC). Neste artigo, propomos uma nova abordagem de FGVC chamada Classificação Visual Fina Assistida por Textos (TA-FGVC). TA-FGVC lê textos para ganhar atenção, vê as imagens com a atenção adquirida e então identifica as diferenças sutis. Tecnicamente, propomos uma rede neural profunda que aprende um modelo de incorporação visual-semântica. A arquitetura profunda proposta consiste principalmente de duas partes: uma para localização visual e a outra para projeção visual para semântica. O modelo é alimentado com características visuais extraídas de imagens brutas e informações semânticas aprendidas a partir de duas fontes: obtidas de textos não anotados e coletadas de atributos de imagem. Na última camada do modelo, cada imagem é incorporada ao espaço semântico relacionado aos rótulos de classe. Finalmente, os resultados da categorização tanto da corrente visual quanto da corrente visual-semântica são combinados para alcançar a decisão final. Experimentos extensivos em benchmarks padrão abertos verificam a superioridade do nosso modelo em relação a vários trabalhos de ponta.
Li et al. (Mon,) estudaram essa questão.