Embora os LLMs demonstrem proficiência em várias tarefas de raciocínio e planejamento baseadas em texto, sua implementação no controle robótico é restrita por deficiências significativas: (1) agentes LLM são projetados para trabalhar principalmente com entradas textuais em vez de condições visuais; (2) Agentes multimodais atuais tratam os LLMs como planejadores estáticos, o que separa seu raciocínio da dinâmica ambiental, resultando em ações que não levam em consideração o conhecimento específico do domínio; e (3) LLMs não são projetados para aprender com interações visuais, o que dificulta a criação de melhores políticas para domínios específicos. Neste artigo, introduzimos o EMAC+, um Agente Multimodal Incorporado que integra colaborativamente LLM e VLM por meio de um paradigma de treinamento bidirecional. Ao contrário dos métodos existentes, o EMAC+ refina dinamicamente planos textuais de alto nível gerados por um LLM usando feedback em tempo real de um VLM executando tarefas de controle visual de baixo nível. Abordamos limitações críticas de modelos anteriores ao permitir que o LLM internalize dinamicamente a dinâmica do ambiente visual diretamente através de experiências interativas, em vez de depender exclusivamente de mapeamentos simbólicos estáticos. Avaliações experimentais extensivas nos benchmarks ALFWorld e RT-1 demonstram que o EMAC+ alcança desempenho superior em tarefas, robustez contra observações ruidosas e aprendizado eficiente. Também realizamos estudos de ablação rigorosos e fornecemos análises detalhadas de casos de sucesso e falha.
Ao et al. (Mon,) estudaram essa questão.