Key points are not available for this paper at this time.
Avanços recentes em Grandes Modelos de Linguagem (LLMs) expandiram suas capacidades para contextos multimodais, incluindo compreensão abrangente de vídeo. No entanto, processar vídeos extensos, como gravações de CCTV de 24 horas ou filmes completos, apresenta desafios significativos devido aos vastos dados e demandas de processamento. Métodos tradicionais, como a extração de quadros-chave ou a conversão de quadros em texto, muitas vezes resultam em uma perda substancial de informações. Para abordar essas deficiências, desenvolvemos o OmAgent, que armazena e recupera eficientemente quadros relevantes de vídeo para consultas específicas, preservando o conteúdo detalhado dos vídeos. Além disso, ele possui um Loop de Divisão e Conquista capaz de raciocínio autônomo, invocando dinamicamente APIs e ferramentas para aprimorar o processamento e a precisão das consultas. Essa abordagem garante uma compreensão robusta de vídeo, reduzindo significativamente a perda de informações. Resultados experimentais confirmam a eficácia do OmAgent em lidar com vários tipos de vídeos e tarefas complexas. Além disso, dotamos o OmAgent de maior autonomia e um robusto sistema de chamada de ferramentas, permitindo que realize tarefas ainda mais intrincadas.
Zhang et al. (Mon,) estudaram essa questão.