Zusammenfassung Obwohl erhebliche Fortschritte bei der 3D-Mensch-Pose-Schätzung auf Basis von monokularen Videos erzielt wurden, mangelt es bestehenden Methoden an Leitlinien durch fein abgestuftes, hochrangiges Vorwissen wie Aktionssemantik und Kameraperspektiven, was zu erheblichen Herausforderungen bei der Genauigkeit der Pose-Rekonstruktion in Szenarien mit stark fehlenden visuellen Merkmalen, z. B. bei komplexen Verdeckungen, führt. Wir identifizieren, dass die Aufgabe der 3D-Mensch-Pose-Schätzung im Kern ein kanonisches inverses Problem darstellt, und schlagen einen motion-semantik-basierten Diffusionsrahmen (MS-Diff) vor, der dieses Problem durch Einbeziehung hochrangiger Bewegungssemantik mit spektraler Merkmalsregularisierung adressiert, um Störgeräusche in komplexen Szenen zu eliminieren und die Schätzgenauigkeit zu verbessern. Konkret entwerfen wir ein Multimodales Diffusions-Interaktionsmodul (MDI), das Bewegungssemantiken einschließlich Aktionskategorien und Kameraperspektiven in den Diffusionsprozess einbindet, wodurch eine semantisch-visuelle Merkmalsausrichtung mittels eines crossmodalen Mechanismus etabliert wird, um Pose-Ambiguitäten zu klären und Verdeckungen effektiv zu bewältigen. Zusätzlich nutzen wir ein Spektralkonvolutionales Regularisierungsmodul (SCR), das adaptive Filterung im Frequenzbereich implementiert, um selektiv Rauschkomponenten zu unterdrücken. Umfangreiche Experimente mit großen öffentlichen Datensätzen Human3.6M und MPI-INF-3DHP zeigen, dass unsere Methode den aktuellen Stand der Technik erreicht.
Shi et al. (Sa.) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: