February 1, 2021Open Access

Estimation de la pose 6DoF de bout en bout à partir d'images RGB monoculaires

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons un cadre conceptuellement simple pour l'estimation de la pose d'objet 6DoF, en particulier pour les scénarios de conduite autonome. Notre approche peut détecter efficacement les participants au trafic à partir d'une image RGB monoculaire tout en régressant simultanément leurs vecteurs de translation et de rotation 3D. La méthode proposée, 6D-VNet, étend le Mask R-CNN en ajoutant des têtes personnalisées pour prédire la classe plus fine du véhicule, sa rotation et sa translation. Elle est entraînée de bout en bout par rapport aux méthodes précédentes. De plus, nous montrons que l'inclusion de la régression translationnelle dans les pertes conjointes est cruciale pour la tâche d'estimation de la pose 6DoF, où la distance de translation de l'objet le long de l'axe longitudinal varie considérablement, par exemple dans les scénarios de conduite autonome. En outre, nous intégrons l'information mutuelle entre les participants au trafic via un bloc non local modifié pour capturer les dépendances spatiales entre les objets détectés. Contrairement à l'implémentation originale du bloc non local, la modification de pondération proposée prend en compte l'information spatiale des voisins tout en contrebalançant l'effet des valeurs de gradient extrêmes. Nous évaluons notre méthode sur le défi du jeu de données Pascal3D+ du monde réel et notre 6D-VNet atteint la 1ère place dans le défi ApolloScape de la tâche d'instance de voiture 3D (Apolloscape, 2018), (Huang et al., 2018).

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper