Key points are not available for this paper at this time.
Estimer la pose des objets à travers la vision est essentiel pour permettre aux plateformes robotiques d'interagir avec l'environnement. Toutefois, cela présente de nombreux défis, souvent liés au manque de flexibilité et de généralisabilité des solutions à la pointe de la technologie. Les modèles de diffusion sont une architecture neuronale de pointe qui transforme la vision par ordinateur en 2D et 3D, mettant en avant des performances remarquables dans la synthèse de vues nouvelles en zero-shot. Un tel cas d'utilisation est particulièrement intrigant pour la reconstruction d'objets 3D. Cependant, la localisation d'objets dans des environnements non structurés est plutôt inexplorée. À cet effet, ce travail présente Zero123-6D pour démontrer l'utilité des synthétiseurs de vues nouvelles basés sur des modèles de diffusion pour améliorer l'estimation de pose 6D RGB au niveau catégorie en les intégrant avec des techniques d'extraction de caractéristiques. La méthode décrite exploite un tel synthétiseur de vues nouvelles pour étendre un ensemble sparse de références uniquement RGB pour la tâche d'estimation de pose 6D en zero-shot. Les expériences sont analysées quantitativement sur le jeu de données CO3D, montrant une performance accrue par rapport aux références, une réduction substantielle des besoins en données, et la suppression de la nécessité d'informations sur la profondeur.
Felice et al. (Jeudi,) ont étudié cette question.