Key points are not available for this paper at this time.
Les objets manipulés par la main (c'est-à-dire, les manipulanda) sont particulièrement difficiles à reconstruire à partir d'images ou de vidéos RGB prises dans la nature. Non seulement la main occlut une grande partie de l'objet, mais en plus, l'objet n'est souvent visible que dans un petit nombre de pixels d'image. En même temps, deux ancrages forts émergent dans ce contexte : (1) les mains 3D estimées aident à disambiguïser la localisation et l'échelle de l'objet, et (2) l'ensemble des manipulanda est petit par rapport à tous les objets possibles. Avec ces perspectives en tête, nous présentons un paradigme évolutif pour la reconstruction d'objets à main levée qui s'appuie sur des percées récentes dans les modèles de langage/vision et les ensembles de données d'objets 3D. Notre modèle, MCC-Hand-Object (MCC-HO), reconstruit conjointement la géométrie de la main et de l'objet à partir d'une seule image RGB et d'une main 3D inférée comme entrées. Par la suite, nous utilisons GPT-4(V) pour récupérer un modèle 3D d'objet qui correspond à l'objet dans l'image et aligner rigoureusement le modèle à la géométrie inférée par le réseau ; nous appelons cet alignement Reconstruction Augmentée par Récupération (RAR). Les expériences montrent que MCC-HO atteint des performances de pointe sur des ensembles de données de laboratoire et Internet, et nous montrons comment RAR peut être utilisé pour obtenir automatiquement des étiquettes 3D pour des images in situ d'interactions main-objet.
Wu et al. (Mar,) ont étudié cette question.