Key points are not available for this paper at this time.
Die „Roaring 20s“ der visuellen Erkennung begannen mit der Einführung von Vision Transformers (ViTs), die ConvNets schnell als den Stand-der-Technik-Bildklassifikationsmodell ablösten. Ein einfacher ViT hat hingegen Schwierigkeiten, wenn er auf allgemeine Computer-Vision-Aufgaben wie Objekterkennung und semantische Segmentierung angewendet wird. Es sind die hierarchischen Transformer (z.B. Swin Transformers), die mehrere ConvNet-Prioritäten wieder eingeführt haben, sodass Transformer praktisch als generische Vision-Backbones nutzbar wurden und bemerkenswerte Leistungen bei einer Vielzahl von Vision-Aufgaben zeigen. Die Effektivität solcher Hybridansätze wird jedoch noch weitgehend der intrinsischen Überlegenheit von Transformern zugeschrieben und nicht den inhärenten induktiven Verzerrungen von Faltungen. In dieser Arbeit untersuchen wir die Entwurfsräume erneut und testen die Grenzen dessen, was ein reines ConvNet erreichen kann. Wir „modernisieren“ schrittweise ein Standard-ResNet in Richtung eines Vision-Transformers und entdecken dabei mehrere Schlüsselkomponenten, die zum Leistungsunterschied beitragen. Das Ergebnis dieser Untersuchung ist eine Familie reiner ConvNet-Modelle namens ConvNeXt. Komplett aus Standard-ConvNet-Modulen aufgebaut, konkurrieren ConvNeXts hinsichtlich Genauigkeit und Skalierbarkeit günstig mit Transformern. Sie erreichen 87,8 % Top-1-Genauigkeit auf ImageNet und übertreffen Swin Transformers bei COCO-Erkennung und ADE20K-Segmentierung, während sie die Einfachheit und Effizienz standardmäßiger ConvNets beibehalten.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuang Liu
Hanzi Mao
Chao-Yuan Wu
University of California, Berkeley
Berkeley College
Meta (Israel)
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Mittw.) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69cf75e617c37f84d7cbf18f — DOI: https://doi.org/10.1109/cvpr52688.2022.01167
Synapse has enriched one closely related paper. Consider it for comparative context: