What type of study is this?

This is a Quantitative Study study.

October 13, 2025

Textgeführte Diffusion mit Spektralkonvolution für die 3D-Mensch-Pose-Schätzung

Key Points

Die Methode verbessert die Genauigkeit der 3D-Mensch-Pose-Schätzung durch Einbeziehung hochrangiger Bewegungssemantik und Rauschunterdrückungstechniken, was zu einer verbesserten Leistung führt.
Umfangreiche Experimente mit Datensätzen wie Human3.6M und MPI-INF-3DHP zeigten, dass das Modell bei Pose-Schätzungsaufgaben den Stand der Technik erreicht.
Ein Multimodales Diffusions-Interaktionsmodul richtet Bewegungssemantik an visuellen Merkmalen aus und hilft, starke Verdeckungen effektiv zu bewältigen.
Der Ansatz nutzt ein spektralkonvolutionales Regularisierungsmodul, das Rauschen im Frequenzbereich filtert und die Gesamtgenauigkeit erhöht.

Abstract

Zusammenfassung Obwohl erhebliche Fortschritte bei der 3D-Mensch-Pose-Schätzung auf Basis von monokularen Videos erzielt wurden, mangelt es bestehenden Methoden an Leitlinien durch fein abgestuftes, hochrangiges Vorwissen wie Aktionssemantik und Kameraperspektiven, was zu erheblichen Herausforderungen bei der Genauigkeit der Pose-Rekonstruktion in Szenarien mit stark fehlenden visuellen Merkmalen, z. B. bei komplexen Verdeckungen, führt. Wir identifizieren, dass die Aufgabe der 3D-Mensch-Pose-Schätzung im Kern ein kanonisches inverses Problem darstellt, und schlagen einen motion-semantik-basierten Diffusionsrahmen (MS-Diff) vor, der dieses Problem durch Einbeziehung hochrangiger Bewegungssemantik mit spektraler Merkmalsregularisierung adressiert, um Störgeräusche in komplexen Szenen zu eliminieren und die Schätzgenauigkeit zu verbessern. Konkret entwerfen wir ein Multimodales Diffusions-Interaktionsmodul (MDI), das Bewegungssemantiken einschließlich Aktionskategorien und Kameraperspektiven in den Diffusionsprozess einbindet, wodurch eine semantisch-visuelle Merkmalsausrichtung mittels eines crossmodalen Mechanismus etabliert wird, um Pose-Ambiguitäten zu klären und Verdeckungen effektiv zu bewältigen. Zusätzlich nutzen wir ein Spektralkonvolutionales Regularisierungsmodul (SCR), das adaptive Filterung im Frequenzbereich implementiert, um selektiv Rauschkomponenten zu unterdrücken. Umfangreiche Experimente mit großen öffentlichen Datensätzen Human3.6M und MPI-INF-3DHP zeigen, dass unsere Methode den aktuellen Stand der Technik erreicht.

Bookmark

Textgeführte Diffusion mit Spektralkonvolution für die 3D-Mensch-Pose-Schätzung

Key Points

Abstract

Cite This Study

Also Consider

Also Consider