Key points are not available for this paper at this time.
Este trabalho introduz o Transformador de Difusão Multimodal (MDT), uma nova estrutura de política de difusão, que se destaca em aprender comportamento versátil a partir de especificações de objetivos multimodais com poucas anotações em linguagem. O MDT aproveita uma estrutura de transformador multimodal baseada em difusão e dois objetivos auxiliares auto-supervisionados para dominar tarefas de manipulação de longo horizonte com base em objetivos multimodais. A grande maioria dos métodos de aprendizado por imitação aprende apenas a partir de modalidades de objetivos individuais, ou seja, seja em linguagem ou em imagens de objetivos. No entanto, os conjuntos de dados de aprendizado por imitação em larga escala existentes são apenas parcialmente rotulados com anotações em linguagem, o que proíbe os métodos atuais de aprender comportamento condicionado à linguagem a partir desses conjuntos de dados. O MDT aborda esse desafio introduzindo uma representação de estado condicionada a um objetivo latente que é simultaneamente treinada com instruções de objetivo multimodal. Essa representação de estado alinha embelezamentos de objetivos baseados em imagem e linguagem e codifica informações suficientes para prever estados futuros. A representação é treinada através de dois objetivos auxiliares auto-supervisionados, aprimorando o desempenho da estrutura de transformador apresentada. O MDT demonstra desempenho excepcional em 164 tarefas fornecidas pelos desafiadores benchmarks CALVIN e LIBERO, incluindo uma versão LIBERO que contém menos de 2\% de anotações em linguagem. Além disso, o MDT estabelece um novo recorde no desafio de manipulação CALVIN, demonstrando uma melhoria de desempenho absoluto de 15\% sobre métodos anteriores de ponta que requerem pré-treinamento em larga escala e contêm 10 parâmetros aprendíveis a mais. O MDT mostra sua capacidade de resolver manipulação de longo horizonte a partir de dados esparsamente anotados em ambientes simulados e do mundo real. Demonstrações e Código estão disponíveis em https://intuitive-robots.github.io/mdat_policy/.
Reuss et al. (Mon,) estudaram esta questão.