Einer der entscheidendsten Aspekte der Fahrzeugherstellung ist die Gewährleistung der Sicherheit der Fahrzeuginsassen. Da fahrerbedingte Faktoren wie Müdigkeit und Ablenkung zu einem Großteil der Unfälle beitragen, ist die Überwachung der Fahrer*innen wesentlich, um die Verkehrssicherheit zu verbessern. Fortschritte im Bereich des maschinellen Sehens haben den Einsatz kostengünstiger Bildsensoren zur Implementierung von Fahrerüberwachungssystemen ermöglicht. In dieser Arbeit interessierten wir uns für die Schätzung der 3D-Pose von Fahrer*innen mit dem Ziel, menschliche Skelettdarstellungen aus Eingabebildern mithilfe von Deep-Learning-Methoden zu rekonstruieren. Da Deep Learning jedoch große Datenmengen erfordert, ist die Erfassung realer Datensätze kostspielig und herausfordernd. Synthetische Daten bieten eine attraktive Alternative, die die Menge an benötigten realen Daten verringern kann, ohne die Genauigkeit zu beeinträchtigen. Unser Ansatz folgt einem dreistufigen Framework zur 3D-Pose-Schätzung. Die Pose-Schätzungspipeline besteht aus vorgefertigten Modellen für die Personenerkennung und die 2D-Pose-Schätzung. Anschließend verwendeten wir synthetische Daten, um verschiedene 2D-zu-3D-Human-Pose-Lifting-Modelle basierend auf unterschiedlichen neuronalen Netzwerkarchitekturen für die letzte Stufe vorzutrainieren. Schließlich wurden diese Modelle mit zunehmenden Mengen realer Daten feinabgestimmt. Ein Experiment mit Drive&Act als Benchmark-Datensatz zeigte Genauigkeitsgewinne für vortrainierte Modelle bei jeder Menge realer Daten, obwohl diese Gewinne mit zunehmender Menge realer Daten abnahmen. Hybride Modelle wie GraphMLP und GraFormer erzielten die besten Ergebnisse, wenn sie mit geringen bis mittleren Mengen realer Daten trainiert wurden, während JointFormer, ein Transformer-Modell, die anderen übertraf, wenn das vollständige reale Datenset verwendet wurde. Darüber hinaus stellten wir fest, dass das nur mit dem synthetischen Datensatz vortrainierte Lifting-Modell selbst dann eine angemessene Pose-Schätzungsleistung erreichte, wenn keine 3D-Pose-Annotationen für die Ziel-Realweltdaten verfügbar waren, beispielsweise wenn deren Erfassung zu kostspielig ist. Insgesamt deuten die Ergebnisse klar auf den Vorteil der Verwendung synthetischer Daten zur Verbesserung der Genauigkeit der 3D-Fahrer*innen-Pose-Schätzung hin, insbesondere wenn 3D-Pose-Annotationen für reale Datensätze nur eingeschränkt verfügbar sind.
Thummanoon Kunanuntakij (Sun,) studied this question.