Key points are not available for this paper at this time.
In den letzten Jahren sind Transformer zur De-facto-Architektur für die Sequenzmodellierung von Text und einer Vielzahl von multidimensionalen Daten, wie Bildern und Videos, geworden. Die Verwendung von Self-Attention-Schichten in einem Transformer führt jedoch zu prohibierenden Rechen- und Speicherkosten, die sich quadratisch in Bezug auf die Sequenzlänge skalieren. Eine kürzlich entwickelte Architektur, Mamba, die auf State Space Modellen basiert, hat gezeigt, dass sie vergleichbare Leistungen beim Modellieren von Textsequenzen erreicht, während sie linear mit der Sequenzlänge skaliert. In dieser Arbeit präsentieren wir Mamba-ND, ein generalisiertes Design, das die Mamba-Architektur auf beliebige multidimensionale Daten ausdehnt. Unser Design entwickelt die Eingabedaten abwechselnd über verschiedene Dimensionen hinweg, gemäß zeilen-major Anordnungen. Wir bieten einen systematischen Vergleich von Mamba-ND mit mehreren anderen Alternativen, basierend auf früheren multidimensionalen Erweiterungen wie bidirektionalen LSTMs und S4ND. Empirisch zeigen wir, dass Mamba-ND eine mit dem Stand der Technik vergleichbare Leistung auf einer Vielzahl von multidimensionalen Benchmarks demonstriert, einschließlich der Klassifikation von ImageNet-1K, der Aktionsanerkennung von HMDB-51 und der Wettervorhersage von ERA5.
Li et al. (Do,) haben diese Frage untersucht.