Key points are not available for this paper at this time.
Modelos de difusão para geração de imagens foram ajustados para desbloquear novas capacidades, como edição de imagens e síntese de novas vistas. Podemos, de forma similar, desbloquear modelos de geração de imagens para controle visuomotor? Apresentamos o GENIMA, um agente de clonagem de comportamento que ajusta o Stable Diffusion para 'desenhar ações conjuntas' como alvos em imagens RGB. Essas imagens são alimentadas em um controlador que mapeia os alvos visuais em uma sequência de posições conjuntas. Estudamos o GENIMA em 25 tarefas de RLBench e 9 tarefas de manipulação no mundo real. Descobrimos que, ao elevar ações para o espaço da imagem, modelos de difusão pré-treinados na internet podem gerar políticas que superam as abordagens visuomotoras de ponta, especialmente em robustez a perturbações de cena e generalização para objetos novos. Nosso método também é competitivo com agentes 3D, apesar de não ter informações a priori, como profundidade, pontos-chave ou planejadores de movimento.
Shridhar et al. (Qua,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: