Die Kombination von Spiking Neural Networks (SNNs) mit Vision Transformer-Architekturen hat aufgrund ihres Potenzials für energieeffiziente und leistungsstarke Rechenparadigmen erhebliches Interesse geweckt. Es besteht jedoch weiterhin eine erhebliche Leistungsdifferenz zwischen SNN-basierten und ANN-basierten Transformer-Architekturen. Während bestehende Methoden spiking Selbstaufmerksamkeitsmechanismen vorschlagen, die erfolgreich mit SNNs kombiniert werden, leiden die insgesamt von diesen Methoden vorgeschlagenen Architekturen unter einem Engpass bei der effektiven Extraktion von Merkmalen aus verschiedenen Bildskalen. In diesem Papier gehen wir auf dieses Problem ein und schlagen MSVIT vor. Diese neuartige spike-gesteuerte Transformer-Architektur nutzt zunächst multi-skalare spiking Aufmerksamkeit (MSSA), um die Fähigkeiten von spiking Aufmerksamkeitsblöcken zu verbessern. Wir validieren unseren Ansatz über verschiedene Hauptdatensätze. Die experimentellen Ergebnisse zeigen, dass MSVIT bestehende SNN-basierte Modelle übertrifft und sich als eine Lösung auf dem neuesten Stand der Technik unter SNN-Transformer-Architekturen positioniert. Der Code ist verfügbar unter https://github.com/Nanhu-AI-Lab/MSViT.
Hua et al. (Mon,) haben diese Frage untersucht.