Key points are not available for this paper at this time.
Das Verständnis von Aktionen in Videos bleibt eine erhebliche Herausforderung in der Computer Vision, die in den letzten Jahrzehnten Gegenstand mehrerer Forschungsarbeiten war. Convolutionale neuronale Netze (CNN) sind ein wesentlicher Bestandteil dieses Themas und spielen eine entscheidende Rolle im Ruf des Deep Learning. Inspiriert vom menschlichen visuellem System wurde CNN auf die Auswertung visueller Daten angewendet und hat verschiedene Herausforderungen in verschiedenen Computer Vision-Aufgaben sowie in der Video-/Bildanalyse gelöst, einschließlich der Aktionsanerkennung (AR). Allerdings hat vor nicht allzu langer Zeit, zusammen mit dem Erfolg des Transformers in der natürlichen Sprachverarbeitung (NLP), begonnen, neue Trends in visuellen Aufgaben zu setzen, was eine Diskussion darüber ausgelöst hat, ob die Vision Transformer-Modelle (ViT) CNN in der Aktionsanerkennung in Videoclips ersetzen werden. Dieses Papier behandelt dieses aktuelle Thema im Detail, die Untersuchung von CNN und Transformer für die Aktionsanerkennung separat und eine vergleichende Studie des Verhältnisses von Genauigkeit zu Komplexität. Schließlich wird basierend auf den Ergebnissen der Leistungsanalyse die Frage diskutiert, ob CNN oder Vision Transformer das Rennen gewinnen werden.
Moutik et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: