June 6, 2024Open Access

MLVU: Um Benchmark Abrangente para Compreensão de Vídeos Longos em Múltiplas Tarefas

Key Points

Key points are not available for this paper at this time.

Abstract

A avaliação do desempenho na Compreensão de Vídeos Longos (LVU) representa um importante, mas desafiador, problema de pesquisa. Apesar de esforços anteriores, os benchmarks existentes para compreensão de vídeos são severamente limitados por várias questões, especialmente a insuficiência das durações dos vídeos, a falta de diversidade nos tipos de vídeo e nas tarefas de avaliação, e a inadequação para avaliar desempenhos de LVU. Para abordar os problemas acima, propomos um novo benchmark, chamado MLVU (Benchmark para Compreensão de Vídeos Longos em Múltiplas Tarefas), para a avaliação abrangente e aprofundada de LVU. O MLVU apresenta os seguintes valores críticos: 1) A extensão substancial e flexível das durações dos vídeos, que permite ao benchmark avaliar o desempenho de LVU em uma ampla gama de durações. 2) A inclusão de vários gêneros de vídeo, por exemplo, filmes, gravações de vigilância, vídeos egocêntricos, desenhos animados, vídeos de jogos, etc., que refletem o desempenho dos modelos em LVU em diferentes cenários. 3) O desenvolvimento de tarefas de avaliação diversificadas, que permite um exame abrangente das principais habilidades dos MLLMs na compreensão de vídeos longos. O estudo empírico com 20 MLLMs mais recentes revela um espaço significativo para melhoria na técnica atual, uma vez que todos os métodos existentes têm dificuldade na maioria das tarefas de avaliação e apresentam uma degradação severa no desempenho ao lidar com vídeos mais longos. Além disso, sugere que fatores como comprimento de contexto, qualidade de compreensão de imagem e a escolha da base LLM podem desempenhar papéis críticos em avanços futuros. Esperamos que o MLVU avance a pesquisa de compreensão de vídeos longos ao fornecer uma análise abrangente e aprofundada dos MLLMs.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper