January 9, 2023Open Access

Convolutionale Neuronale Netze oder Vision Transformer: Wer wird das Rennen um die Aktionsanerkennung in visuellen Daten gewinnen?

Key Points

Key points are not available for this paper at this time.

Abstract

Das Verständnis von Aktionen in Videos bleibt eine erhebliche Herausforderung in der Computer Vision, die in den letzten Jahrzehnten Gegenstand mehrerer Forschungsarbeiten war. Convolutionale neuronale Netze (CNN) sind ein wesentlicher Bestandteil dieses Themas und spielen eine entscheidende Rolle im Ruf des Deep Learning. Inspiriert vom menschlichen visuellem System wurde CNN auf die Auswertung visueller Daten angewendet und hat verschiedene Herausforderungen in verschiedenen Computer Vision-Aufgaben sowie in der Video-/Bildanalyse gelöst, einschließlich der Aktionsanerkennung (AR). Allerdings hat vor nicht allzu langer Zeit, zusammen mit dem Erfolg des Transformers in der natürlichen Sprachverarbeitung (NLP), begonnen, neue Trends in visuellen Aufgaben zu setzen, was eine Diskussion darüber ausgelöst hat, ob die Vision Transformer-Modelle (ViT) CNN in der Aktionsanerkennung in Videoclips ersetzen werden. Dieses Papier behandelt dieses aktuelle Thema im Detail, die Untersuchung von CNN und Transformer für die Aktionsanerkennung separat und eine vergleichende Studie des Verhältnisses von Genauigkeit zu Komplexität. Schließlich wird basierend auf den Ergebnissen der Leistungsanalyse die Frage diskutiert, ob CNN oder Vision Transformer das Rennen gewinnen werden.

KI fragen

Bookmark

View Full Paper