Key points are not available for this paper at this time.
La localisation d'objets dans l'espace 3D réel, qui joue un rôle crucial dans la compréhension de la scène, est particulièrement difficile avec seulement une image RGB en raison de la perte d'informations géométriques lors de la projection d'image. Nous proposons MonoGRNet pour la localisation d'objets 3D amodale à partir d'une image RGB monoculaire via un raisonnement géométrique à la fois dans la projection 2D observée et dans la dimension de profondeur non observée. MonoGRNet est un réseau unique et unifié composé de quatre sous-réseaux spécifiques à des tâches, responsables de la détection d'objets en 2D, de l'estimation de profondeur d'instance (IDE), de la localisation 3D et de la régression de coins locaux. Contrairement à l'estimation de profondeur au niveau des pixels qui nécessite des annotations par pixel, nous proposons une nouvelle méthode IDE qui prédit directement la profondeur du centre de la boîte englobante 3D ciblée en utilisant une supervision sparse. La localisation 3D est ensuite réalisée en estimant la position dans les dimensions horizontale et verticale. Enfin, MonoGRNet est appris conjointement en optimisant les emplacements et poses des boîtes englobantes 3D dans le contexte global. Nous démontrons que MonoGRNet atteint des performances à la pointe de la technologie sur des ensembles de données difficiles.
Qin et al. (Mercredi,) ont étudié cette question.