Key points are not available for this paper at this time.
Nous abordons le problème de la détection des cibles d'attention dans la vidéo. Notre objectif est d'identifier où chaque personne dans chaque image d'une vidéo regarde, et de gérer correctement le cas où la cible de regard est hors cadre. Notre architecture novatrice modélise l'interaction dynamique entre les caractéristiques de la scène et de la tête et infère des cibles d'attention variant dans le temps. Nous introduisons un nouvel ensemble de données annotées, VideoAttentionTarget, contenant des motifs complexes et dynamiques du comportement de regard dans le monde réel. Nos expériences montrent que notre modèle peut inférer efficacement l'attention dynamique dans les vidéos. De plus, nous appliquons nos cartes d'attention prédites à deux tâches de reconnaissance du comportement social de regard, et montrons que les classificateurs résultants surpassent significativement les méthodes existantes. Nous obtenons des performances à la pointe de la technologie sur trois ensembles de données : GazeFollow (images statiques), VideoAttentionTarget (vidéos) et VideoCoAtt (vidéos), et réalisons les premiers résultats pour classifier automatiquement le comportement de regard cliniquement pertinent sans caméras portables ni traceurs oculaires.
Chong et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: