Key points are not available for this paper at this time.
Com o surto exponencial de dados multi-modais diversos, os métodos tradicionais de recuperação uni-modal têm dificuldades em atender às necessidades dos usuários que buscam acesso a dados em várias modalidades. Para abordar isso, a recuperação cross-modal emergiu, permitindo a interação entre modalidades, facilitando o emparelhamento semântico e aproveitando a complementaridade e consistência entre dados heterogêneos. Embora a literatura anterior tenha revisado o campo da recuperação cross-modal, ela sofre de numerosas deficiências em termos de tempestividade, taxonomia e abrangência. Este artigo realiza uma revisão abrangente da evolução da recuperação cross-modal, abrangendo desde técnicas de análise estatística rasa até modelos de pré-treinamento de visão-linguagem. Começando com uma taxonomia abrangente fundamentada em paradigmas, mecanismos e modelos de aprendizado de máquina, o artigo se aprofunda nos princípios e arquiteturas que sustentam os métodos existentes de recuperação cross-modal. Além disso, oferece uma visão geral de benchmarks, métricas e desempenhos amplamente utilizados. Por fim, o artigo investiga as perspectivas e desafios que confrontam a recuperação cross-modal contemporânea, enquanto se engaja em um discurso sobre as direções potenciais para progresso adicional no campo. Para facilitar a pesquisa contínua sobre recuperação cross-modal, desenvolvemos uma caixa de ferramentas amigável ao usuário e um repositório de código aberto em https://cross-modal-retrieval.github.io.
Wang et al. (Mon,) estudaram essa questão.