Key points are not available for this paper at this time.
Das Aktionsparsing in Videos mit komplexen Szenen ist eine interessante, aber herausfordernde Aufgabe in der Computer Vision. In diesem Papier schlagen wir ein generisches 3D-Faltungsneuronales Netzwerk in einem Multi-Task-Lernansatz für effektives Tiefenaktionsparsing (DAP3D-Net) in Videos vor. Insbesondere können im Trainingsprozess die Aktionslokalisation, Klassifikation und Attribut-Lernen gemeinsam auf unseren Erscheinungsbewegungsdaten über DAP3D-Net optimiert werden. Für ein bevorstehendes Testvideo können wir jede einzelne Aktion im Video gleichzeitig beschreiben als: Wo die Aktion stattfindet, Was die Aktion ist und Wie die Aktion durchgeführt wird. Um die Effektivität des vorgeschlagenen DAP3D-Net gut zu demonstrieren, tragen wir auch einen neuen umfangreichen Kategorisierten Ausgleichs-Syntheseaktionsdatensatz bei, d.h. NASA, der aus 200.000 Aktionsclips von über 300 Kategorien besteht und 33 vordefinierte Aktionsattribute auf zwei hierarchischen Ebenen enthält (d.h. niedrigstufige Attribute grundlegender Körperbewegungen und hochstufige Attribute, die mit der Aktionsbewegung verbunden sind). Wir lernen DAP3D-Net mit dem NASA-Datensatz und bewerten es anschließend an unserem gesammelten Human Action Understanding-Datensatz und dem öffentlichen THUMOS-Datensatz. Experimentelle Ergebnisse zeigen, dass unser Ansatz in der Lage ist, mehrere Aktionen in realistischen Videos genau zu lokalisieren, zu kategorisieren und zu beschreiben.
Liu et al. (Mittwoch) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: