January 1, 2023

STAR-Transformer: Ein räumlich-zeitlicher Kreuz-Achtsamkeits-Transformer zur Erkennung menschlicher Aktionen

Key Points

Key points are not available for this paper at this time.

Abstract

Bei der Aktionsanerkennung kann die Kombination von räumlich-zeitlichen Videos und Skelettmerkmalen zwar die Erkennungsleistung verbessern, jedoch ist ein separates Modell sowie eine ausgewogene Merkmalsdarstellung für multimodale Daten erforderlich. Um diese Probleme zu lösen, schlagen wir den Spatio-TemporAl cRoss (STAR)-Transformer vor, der zwei multimodale Merkmale effektiv als erkennbaren Vektor darstellen kann. Zuerst werden aus dem Eingabevideo und der Skelettsequenz Videoframes als globale Raster-Tokens und Skelette als Gelenk-Karten-Tokens ausgegeben. Diese Tokens werden dann zu Mehrklassen-Tokens aggregiert und in den STAR-Transformer eingegeben. Der Encoder des STAR-Transformers besteht aus einem vollständigen räumlich-zeitlichen Aufmerksamkeitsmodul (FAttn) und einem vorgeschlagenen Zickzack-räumlich-zeitlichen Aufmerksamkeitsmodul (ZAttn). Ebenso besteht der kontinuierliche Decoder aus einem FAttn-Modul und einem vorgeschlagenen binären räumlich-zeitlichen Aufmerksamkeitsmodul (BAttn). Der STAR-Transformer lernt eine effiziente Mehrfachmerkmalsdarstellung der räumlich-zeitlichen Merkmale, indem die Paarungen der FAttn-, ZAttn- und BAttn-Module richtig angeordnet werden. Experimentelle Ergebnisse auf den Penn-Action-, NTU-RGB+D 60- und 120-Datensätzen zeigen, dass die vorgeschlagene Methode eine vielversprechende Verbesserung der Leistung im Vergleich zu früheren Methoden des aktuellen Stands der Technik erzielt.

Bookmark

STAR-Transformer: Ein räumlich-zeitlicher Kreuz-Achtsamkeits-Transformer zur Erkennung menschlicher Aktionen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider