Key points are not available for this paper at this time.
Neste artigo, propomos o VidLA, uma abordagem para alinhamento vídeo-linguagem em escala. Existem duas limitações principais nas abordagens anteriores de alinhamento vídeo-linguagem. Primeiro, elas não capturam as dependências temporais de curto e longo alcance e geralmente empregam arquiteturas de redes neurais profundas hierárquicas complexas que são difíceis de integrar com modelos de fundação de imagem-texto pré-treinados existentes. Para abordar efetivamente essa limitação, mantemos a arquitetura da rede simples e usamos um conjunto de tokens de dados que operam em diferentes resoluções temporais de maneira hierárquica, levando em conta a natureza hierárquica temporal dos vídeos. Ao empregar uma arquitetura simples de duas torres, conseguimos inicializar nosso modelo vídeo-linguagem com modelos de fundação de imagem-texto pré-treinados, aumentando assim o desempenho final. Segundo, os trabalhos existentes de alinhamento vídeo-linguagem enfrentam dificuldades devido à falta de dados de treinamento em grande escala semanticamente alinhados. Para superar isso, aproveitamos LLMs recentes para curar o maior conjunto de dados vídeo-linguagem até hoje, com melhor ancoragem visual. Além disso, ao contrário dos conjuntos de dados vídeo-texto existentes que contêm apenas clipes curtos, nosso conjunto de dados é enriquecido com clipes de vídeo de durações variadas para auxiliar nossos tokens de dados temporais hierárquicos na extração de melhores representações em diferentes escalas temporais. No geral, os resultados empíricos mostram que nossa abordagem proposta supera métodos de estado da arte em múltiplos benchmarks de recuperação, especialmente em vídeos mais longos, e apresenta desempenho competitivo em benchmarks de classificação.
Rizve et al. (Qui,) estudaram esta questão.