Key points are not available for this paper at this time.
Unsere Arbeit befasst sich mit dem Problem der egozentrischen Schätzung der menschlichen Pose aus nach unten gerichteten Kameras auf kopfmontierten Geräten (HMD). Dies stellt ein herausforderndes Szenario dar, da Teile des Körpers oft außerhalb des Bildes liegen oder verdeckt sind. Frühere Lösungen minimieren dieses Problem, indem sie Fisheye-Kameraobjektive verwenden, um einen größeren Blickwinkel zu erfassen, was jedoch zu Problemen im Hardware-Design führen kann. Sie sagen auch 2D-Hitze-Karten pro Gelenk voraus und heben sie in den 3D-Raum an, um mit Selbstverdeckungen umzugehen, was jedoch große Netzwerkarchitekturen erfordert, die im Einsatz auf ressourcenbeschränkten HMDs unpraktisch sind. Wir sagen die Pose aus Bildern voraus, die mit konventionellen rechtwinkligen Kameraobjektiven aufgenommen wurden. Dies löst Probleme im Hardware-Design, bedeutet jedoch, dass Körperteile oft aus dem Bildrand fallen. Daher regressieren wir direkt probabilistische Gelenkdrehungen, die als Matrix-Fisher-Verteilungen für ein parametrisiertes Körpermodell dargestellt werden. Dies ermöglicht es uns, Unsicherheiten in der Pose zu quantifizieren und aus dem Bildrand oder verdeckte Gelenke zu erklären. Dies beseitigt auch die Notwendigkeit, 2D-Hitze-Karten zu berechnen, und erlaubt vereinfachte DNN-Architekturen, die weniger Rechenleistung erfordern. Angesichts des Mangels an egozentrischen Datensätzen mit rechtwinkligen Kameraobjektiven führen wir den SynthEgo-Datensatz ein, einen synthetischen Datensatz mit 60K Stereo-Bildern, die eine hohe Vielfalt an Pose, Form, Kleidung und Hautfarbe enthalten. Unser Ansatz erreicht erstklassige Ergebnisse für diese herausfordernde Konfiguration und reduziert den durchschnittlichen Positionsfehler pro Gelenk insgesamt um 23 % und um 58 % für den Unterkörper. Unsere Architektur hat auch achtmal weniger Parameter und läuft doppelt so schnell wie der aktuelle Stand der Technik. Experimente zeigen, dass das Training auf unserem synthetischen Datensatz zu einer guten Verallgemeinerung auf reale Bilder führt, ohne Feinabstimmung. 1 Verfügbar unter https://microsoft.github.io/SimpleEgo.
Cuevas-Velasquez et al. (Mon,) untersuchten diese Frage.