Key points are not available for this paper at this time.
Kürzlich haben die Zustandsraum-Modelle (SSMs) mit effizienten, hardwarebewussten Designs, d. h. das Mamba-Deep-Learning-Modell, großes Potenzial für die Modellierung langer Sequenzen gezeigt. Gleichzeitig ist der Aufbau effizienter und allgemeiner visueller Rückgratstrukturen ausschließlich auf Basis von SSMs eine attraktive Richtung. Die Darstellung visueller Daten ist jedoch für SSMs herausfordernd aufgrund der Positionssensitivität visueller Daten und der Anforderung an einen globalen Kontext für das visuelle Verständnis. In diesem Papier zeigen wir, dass die Abhängigkeit von Selbstaufmerksamkeit für das Lernen visueller Darstellungen nicht notwendig ist und schlagen ein neues allgemeines visuelles Rückgrat mit bidirektionalen Mamba-Blöcken (Vim) vor, das die Bildsequenzen mit Positions-Embeddings kennzeichnet und die visuelle Darstellung mit bidirektionalen Zustandsraum-Modellen komprimiert. Bei der Klassifikation von ImageNet, der Objekterkennung in COCO und den semantischen Segmentierungsaufgaben von ADE20k erzielt Vim eine höhere Leistung im Vergleich zu etablierten visionären Transformern wie DeiT und zeigt zudem signifikant verbesserte Rechen- und Speichereffizienz. Zum Beispiel ist Vim 2,8-mal schneller als DeiT und spart 86,8 % GPU-Speicher bei der Durchführung von Batch-Inferenz zum Extrahieren von Merkmalen aus Bildern mit einer Auflösung von 1248x1248. Die Ergebnisse zeigen, dass Vim in der Lage ist, die Rechen- und Speicherbeschränkungen bei der Durchführung von Transformer-artigem Verständnis für hochauflösende Bilder zu überwinden und dass es großes Potenzial hat, das nächste Generationsrückgrat für visuelle Fundamentmodelle zu sein. Code ist verfügbar unter https://github.com/hustvl/Vim.
Zhu et al. (Mittwoch) untersuchten diese Frage.