Este artigo concentra-se na tarefa de Segmentação de Vídeo Referente Multimodal, onde um modelo bem otimizado é capaz de reconhecer e segmentar os objetos-alvo referidos pelos sinais de orientação dados, por exemplo, descrição em linguagem. Abordagens iniciais modelam essa tarefa como um problema de previsão de sequência. A falta de uma visão global do conteúdo do vídeo leva a dificuldades em utilizar efetivamente as relações entre quadros. Alguns trabalhos recentes propõem realizar modelagem temporal com mecanismo de atenção simples. No entanto, a representação visual condensada tende a ser confusa em relação às informações-alvo devido a oclusão ou desfoque de movimento. A operação não-local ilimitada espalha esse ruído por todas as sequências e interfere na extração de representações globais. Para abordar a questão acima, apresentamos a rede de Agrupamento de Objetos Assistida por Semântica (SOC) e a SOC++ melhorada neste artigo. Nosso método unifica a interação temporal seletiva e o alinhamento cruzado modal para alcançar compreensão em nível de vídeo. Na SOC++, um módulo de fusão multimodal assistido por proxy é introduzido para realizar ativação bidirecional preliminar. Em seguida, um módulo de integração semântica com estrutura de quadro-para-vídeo progressiva facilita a aprendizagem conjunta de espaço entre modalidades e etapas de tempo. Considerando que os potenciais emblemas visuais ruidosos poderiam prejudicar a representação geral dos objetos-alvo em interações não restritas entre quadros, propomos realizar agregação de vídeo tendenciosa, enfatizando o papel indicativo dos quadros informativos com menor entropia nesta parte. Uma supervisão contrastiva de consulta multimodal também é utilizada para ajudar a construir um espaço conjunto bem alinhado em nível de vídeo. Além disso, para integrar a vantagem das informações de vídeo em alto nível e os detalhes de baixo nível de cada quadro, introduzimos um módulo de fusão de consulta dinâmica que realiza atualização conjunta desses emblemas. Realizamos extensos experimentos em benchmarks populares de segmentação de vídeo referente, e nosso método supera os concorrentes de ponta em todos os benchmarks por uma margem notável. Além disso, a ênfase na coerência temporal aprimora a estabilidade e a adaptabilidade da segmentação do nosso método ao processar expressões textuais com variações temporais. O código está disponível em https://github.com/yongliu20/MRVSSOC.
Liu et al. (Quarta-feira) estudaram esta questão.