What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

MSVIT: Verbesserung des Spiking Vision Transformer's durch Multi-Skalen-Aufmerksamkeitsfusion

Key Points

MSVIT übertrifft bestehende Modelle von spiking neuronalen Netzwerken erheblich und demonstriert seine Wirksamkeit in der Bildanalyse.
Experimentelle Ergebnisse zeigen Verbesserungen in der Leistung und überbrücken die Kluft zwischen spiking neuronalen Netzwerken und traditionellen Architekturen.
Die Verwendung von multi-skalares spiking Aufmerksamkeit verbessert die Merkmalsextraktion über verschiedene Bildskalen in spiking Transformern.
Die neuartige Architektur bietet eine Lösung auf dem neuesten Stand der Technik in SNN-Transformer-Hybridmodellen für effizientes Rechnen.

Abstract

Die Kombination von Spiking Neural Networks (SNNs) mit Vision Transformer-Architekturen hat aufgrund ihres Potenzials für energieeffiziente und leistungsstarke Rechenparadigmen erhebliches Interesse geweckt. Es besteht jedoch weiterhin eine erhebliche Leistungsdifferenz zwischen SNN-basierten und ANN-basierten Transformer-Architekturen. Während bestehende Methoden spiking Selbstaufmerksamkeitsmechanismen vorschlagen, die erfolgreich mit SNNs kombiniert werden, leiden die insgesamt von diesen Methoden vorgeschlagenen Architekturen unter einem Engpass bei der effektiven Extraktion von Merkmalen aus verschiedenen Bildskalen. In diesem Papier gehen wir auf dieses Problem ein und schlagen MSVIT vor. Diese neuartige spike-gesteuerte Transformer-Architektur nutzt zunächst multi-skalare spiking Aufmerksamkeit (MSSA), um die Fähigkeiten von spiking Aufmerksamkeitsblöcken zu verbessern. Wir validieren unseren Ansatz über verschiedene Hauptdatensätze. Die experimentellen Ergebnisse zeigen, dass MSVIT bestehende SNN-basierte Modelle übertrifft und sich als eine Lösung auf dem neuesten Stand der Technik unter SNN-Transformer-Architekturen positioniert. Der Code ist verfügbar unter https://github.com/Nanhu-AI-Lab/MSViT.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper