July 10, 2024Open Access

Imagem Generativa como Modelos de Ação

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de difusão para geração de imagens foram ajustados para desbloquear novas capacidades, como edição de imagens e síntese de novas vistas. Podemos, de forma similar, desbloquear modelos de geração de imagens para controle visuomotor? Apresentamos o GENIMA, um agente de clonagem de comportamento que ajusta o Stable Diffusion para 'desenhar ações conjuntas' como alvos em imagens RGB. Essas imagens são alimentadas em um controlador que mapeia os alvos visuais em uma sequência de posições conjuntas. Estudamos o GENIMA em 25 tarefas de RLBench e 9 tarefas de manipulação no mundo real. Descobrimos que, ao elevar ações para o espaço da imagem, modelos de difusão pré-treinados na internet podem gerar políticas que superam as abordagens visuomotoras de ponta, especialmente em robustez a perturbações de cena e generalização para objetos novos. Nosso método também é competitivo com agentes 3D, apesar de não ter informações a priori, como profundidade, pontos-chave ou planejadores de movimento.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper