Key points are not available for this paper at this time.
La Reconnaissance d'Actions Humaines (HAR) vise à comprendre le comportement humain et à attribuer une étiquette à chaque action. Elle possède un large éventail d'applications et attire donc une attention croissante dans le domaine de la vision par ordinateur. Les actions humaines peuvent être représentées à l'aide de diverses modalités de données, telles que RGB, squelette, profondeur, infrarouge, nuage de points, flux d'événements, audio, accélération, radar et signal WiFi, qui encodent différentes sources d'informations utiles mais distinctes et présentent divers avantages selon les scénarios d'application. Par conséquent, de nombreux travaux existants ont tenté d'explorer différents types d'approches pour la HAR en utilisant diverses modalités. Dans cet article, nous présentons une enquête complète sur les progrès récents des méthodes d'apprentissage profond pour la HAR basées sur le type de modalité de données d'entrée. Plus précisément, nous examinons les méthodes d'apprentissage profond courantes pour les modalités de données uniques et multiples, y compris les cadres basés sur la fusion et ceux basés sur l'apprentissage collaboratif. Nous présentons également des résultats comparatifs sur plusieurs ensembles de données de référence pour la HAR, accompagnés d'observations perspicaces et de directions de recherche futures inspirantes.
Sun et al. (Samedi) ont étudié cette question.