Key points are not available for this paper at this time.
Le geste est une interface naturelle pour interagir avec des dispositifs portables tels que le casque et les lunettes VR/AR. Le principal défi de la reconnaissance gestuelle en vision égocentrique provient du mouvement global de la caméra causé par le mouvement spontané de la tête du porteur du dispositif. Dans cet article, nous abordons le problème par un nouveau réseau de neurones convolutifs 3D récurrents pour un apprentissage de bout en bout. Nous concevons spécialement un module de transformateur spatiotemporel avec des connexions récurrentes entre les tranches de temps voisines qui peut activement transformer une carte de caractéristiques 3D en une vue canonique dans les dimensions spatiale et temporelle. Pour valider notre méthode, nous introduisons un nouvel ensemble de données d'une taille, d'une variation et d'une réalité suffisantes, contenant 83 gestes conçus pour l'interaction avec des dispositifs portables, et plus de 24 000 échantillons de gestes RGB-D provenant de 50 sujets capturés dans 6 scènes. Sur cet ensemble de données, nous montrons que le réseau proposé surpasse les algorithmes de pointe concurrents. De plus, notre méthode peut atteindre des performances de pointe sur le jeu de données d'actions égocentriques GTEA, qui est difficile.
Cao et al. (Sun,) ont étudié cette question.