Key points are not available for this paper at this time.
Hände erscheinen sehr häufig in egocentrischen Videos, und ihr Erscheinungsbild sowie ihre Pose geben wichtige Hinweise darauf, was Menschen tun und worauf sie ihre Aufmerksamkeit richten. Bisherige Arbeiten zur Handerkennung basierten auf starken Annahmen, die nur in einfachen Szenarien funktionieren, wie z.B. bei begrenzter Interaktion mit anderen Personen oder in Laboreinstellungen. Wir entwickeln Methoden, um Hände in egocentrischen Videos zu lokalisieren und voneinander zu unterscheiden, wobei wir starke Erscheinungsmodelle mit Convolutional Neural Networks verwenden, und führen einen einfachen Ansatz zur Generierung von Kandidatenregionen ein, der bestehende Techniken bei einem Bruchteil der Rechenkosten übertrifft. Wir zeigen, wie diese hochwertigen Begrenzungsrahmen verwendet werden können, um genaue pixelweise Handregionen zu erstellen, und untersuchen als Anwendung, inwieweit die Handsegmentierung allein verschiedene Aktivitäten unterscheiden kann. Wir bewerten diese Techniken an einem neuen Datensatz von 48 First-Person-Videos von Menschen, die in realistischen Umgebungen interagieren, mit pixelgenauen Bodenwahrheiten für über 15.000 Handinstanzen.
Bambach et al. (Di,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: