November 9, 2025Open Access

Agente-Omni: Raciocínio Multimodal em Tempo de Teste via Coordenação de Modelos para Compreender Tudo

Key Points

Agente-Omni alcança desempenho de ponta em raciocínio multimodal, particularmente para imagens.
Experimentos mostram melhorias significativas em vários tipos de entrada, indicando forte capacidade em tarefas multimodais.
A coordenação baseada em agentes dos modelos permite integração e processamento eficientes de diversos tipos de mídia, aumentando a interpretabilidade.
O design modular possibilita atualizações e melhorias contínuas à medida que novos modelos fundacionais surgem, garantindo sustentabilidade.

Abstract

Modelos de linguagem multimodal grandes (MLLMs) demonstraram fortes capacidades, mas permanecem limitados a pares de modalidades fixas e requerem afinação cara com grandes conjuntos de dados alinhados. Construir modelos totalmente omni-capazes que possam integrar texto, imagens, áudio e vídeo continua sendo impraticável e carece de suporte robusto para raciocínio. Neste artigo, propomos uma estrutura Agente-Omni que coordena os modelos fundacionais existentes por meio de um sistema mestre-agente, possibilitando raciocínio multimodal flexível sem re-treinamento. O agente mestre interpreta a intenção do usuário, delega subtarefas a agentes específicos de modalidade e integra suas saídas em respostas coerentes. Experimentos extensivos em benchmarks de texto, imagem, áudio, vídeo e omni mostram que o Agente-Omni alcança consistentemente desempenho de ponta, particularmente em tarefas que requerem raciocínio complexo entre modalidades. Seu design baseado em agentes permite a integração perfeita de modelos fundacionais especializados, garantindo adaptabilidade a entradas diversas enquanto mantém transparência e interpretabilidade. Além disso, a estrutura é modular e facilmente extensível, permitindo melhorias futuras à medida que modelos mais fortes se tornam disponíveis.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper