Key points are not available for this paper at this time.
Dans cet article, nous visons à générer des propositions d'actions génériques dans des vidéos non contraintes. Chaque proposition d'action correspond à une série temporelle de boîtes englobantes spatiales, c'est-à-dire un tube vidéo spatio-temporel, qui a un bon potentiel pour localiser une action humaine. En supposant que chaque action est réalisée par un humain avec un mouvement significatif, à la fois les indices d'apparence et de mouvement sont utilisés pour mesurer l'actionnalité des tubes vidéo. Après avoir sélectionné ces chemins spatio-temporels avec des scores d'actionnalité élevés, notre génération de propositions d'actions est formulée comme un problème de couverture de maximum d'ensemble, où une recherche gourmande est effectuée pour sélectionner un ensemble de propositions d'actions pouvant maximiser le score global d'actionnalité. Comparé aux approches existantes de propositions d'actions, nos propositions d'actions ne s'appuient pas sur la segmentation vidéo et peuvent être générées en presque temps réel. Les résultats expérimentaux sur deux ensembles de données difficiles, MSRII et UCF 101, valident la performance supérieure de nos propositions d'actions ainsi que des résultats compétitifs en détection et recherche d'actions.
Yu et al. (Mon,) ont étudié cette question.