Key points are not available for this paper at this time.
Die Schätzung der 3D-Mensch-Pose aus einem einzelnen Bild ist eine herausfordernde Aufgabe. Diese Arbeit versucht, die Unsicherheit beim Heben der detektierten 2D-Gelenke in den 3D-Raum zu adressieren, indem ein intermediärer Zustand - Teil-zentrierte Heatmap-Triplets (HEMlets) - eingeführt wird, der die Kluft zwischen der 2D-Beobachtung und der 3D-Interpretation verringert. Die HEMlets nutzen drei Gelenk-Heatmaps, um die relativen Tiefeninformationen der Endgelenke für jedes skelletale Körperteil darzustellen. In unserem Ansatz wird zuerst ein Convolutional Network (ConvNet) trainiert, um HEMlets aus dem Eingabebild vorherzusagen, gefolgt von einer volumetrischen Gelenk-Heatmap-Regressionsanalyse. Wir nutzen die Integrationsoperation, um die Gelenkstandorte aus den volumetrischen Heatmaps zu extrahieren, was ein End-to-End-Lernen gewährleistet. Trotz der Einfachheit des Netzdesigns zeigen die quantitativen Vergleiche eine signifikante Leistungssteigerung gegenüber der besten verfügbaren Methode (um 20 % auf Human3.6M). Die vorgeschlagene Methode unterstützt auf natürliche Weise das Training mit "in-the-wild"-Bildern, bei denen nur schwach annotierte relative Tiefeninformationen der skelletalen Gelenke verfügbar sind. Dies verbessert weiter die Verallgemeinerungsfähigkeit unseres Modells, was durch qualitative Vergleiche an Außenbildern validiert wird.
Zhou et al. (Tue,) haben diese Frage untersucht.