What type of study is this?

This is a Experimental Study study.

September 30, 2025Open Access

EMAC+: Agente Multimodal Incorporado para Planejamento Colaborativo com VLM+LLM

Key Points

O EMAC+ demonstra desempenho superior no planejamento colaborativo ao mesclar interações LLM e VLM.
O aprimoramento dinâmico dos planos com feedback em tempo real das tarefas visuais melhorou o aprendizado e a adaptabilidade.
Experimentos extensivos nos benchmarks ALFWorld e RT-1 mostram robustez aprimorada contra ruídos nas observações.
Os estudos de ablação fornecem insights sobre os pontos fortes e limitações do modelo em diversos ambientes.

Abstract

Embora os LLMs demonstrem proficiência em várias tarefas de raciocínio e planejamento baseadas em texto, sua implementação no controle robótico é restrita por deficiências significativas: (1) agentes LLM são projetados para trabalhar principalmente com entradas textuais em vez de condições visuais; (2) Agentes multimodais atuais tratam os LLMs como planejadores estáticos, o que separa seu raciocínio da dinâmica ambiental, resultando em ações que não levam em consideração o conhecimento específico do domínio; e (3) LLMs não são projetados para aprender com interações visuais, o que dificulta a criação de melhores políticas para domínios específicos. Neste artigo, introduzimos o EMAC+, um Agente Multimodal Incorporado que integra colaborativamente LLM e VLM por meio de um paradigma de treinamento bidirecional. Ao contrário dos métodos existentes, o EMAC+ refina dinamicamente planos textuais de alto nível gerados por um LLM usando feedback em tempo real de um VLM executando tarefas de controle visual de baixo nível. Abordamos limitações críticas de modelos anteriores ao permitir que o LLM internalize dinamicamente a dinâmica do ambiente visual diretamente através de experiências interativas, em vez de depender exclusivamente de mapeamentos simbólicos estáticos. Avaliações experimentais extensivas nos benchmarks ALFWorld e RT-1 demonstram que o EMAC+ alcança desempenho superior em tarefas, robustez contra observações ruidosas e aprendizado eficiente. Também realizamos estudos de ablação rigorosos e fornecemos análises detalhadas de casos de sucesso e falha.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper