Modelos de linguagem multimodal grandes (MLLMs) demonstraram fortes capacidades, mas permanecem limitados a pares de modalidades fixas e requerem afinação cara com grandes conjuntos de dados alinhados. Construir modelos totalmente omni-capazes que possam integrar texto, imagens, áudio e vídeo continua sendo impraticável e carece de suporte robusto para raciocínio. Neste artigo, propomos uma estrutura Agente-Omni que coordena os modelos fundacionais existentes por meio de um sistema mestre-agente, possibilitando raciocínio multimodal flexível sem re-treinamento. O agente mestre interpreta a intenção do usuário, delega subtarefas a agentes específicos de modalidade e integra suas saídas em respostas coerentes. Experimentos extensivos em benchmarks de texto, imagem, áudio, vídeo e omni mostram que o Agente-Omni alcança consistentemente desempenho de ponta, particularmente em tarefas que requerem raciocínio complexo entre modalidades. Seu design baseado em agentes permite a integração perfeita de modelos fundacionais especializados, garantindo adaptabilidade a entradas diversas enquanto mantém transparência e interpretabilidade. Além disso, a estrutura é modular e facilmente extensível, permitindo melhorias futuras à medida que modelos mais fortes se tornam disponíveis.
Lin et al. (Ter,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: