Key points are not available for this paper at this time.
Bei der Aktionsanerkennung kann die Kombination von räumlich-zeitlichen Videos und Skelettmerkmalen zwar die Erkennungsleistung verbessern, jedoch ist ein separates Modell sowie eine ausgewogene Merkmalsdarstellung für multimodale Daten erforderlich. Um diese Probleme zu lösen, schlagen wir den Spatio-TemporAl cRoss (STAR)-Transformer vor, der zwei multimodale Merkmale effektiv als erkennbaren Vektor darstellen kann. Zuerst werden aus dem Eingabevideo und der Skelettsequenz Videoframes als globale Raster-Tokens und Skelette als Gelenk-Karten-Tokens ausgegeben. Diese Tokens werden dann zu Mehrklassen-Tokens aggregiert und in den STAR-Transformer eingegeben. Der Encoder des STAR-Transformers besteht aus einem vollständigen räumlich-zeitlichen Aufmerksamkeitsmodul (FAttn) und einem vorgeschlagenen Zickzack-räumlich-zeitlichen Aufmerksamkeitsmodul (ZAttn). Ebenso besteht der kontinuierliche Decoder aus einem FAttn-Modul und einem vorgeschlagenen binären räumlich-zeitlichen Aufmerksamkeitsmodul (BAttn). Der STAR-Transformer lernt eine effiziente Mehrfachmerkmalsdarstellung der räumlich-zeitlichen Merkmale, indem die Paarungen der FAttn-, ZAttn- und BAttn-Module richtig angeordnet werden. Experimentelle Ergebnisse auf den Penn-Action-, NTU-RGB+D 60- und 120-Datensätzen zeigen, dass die vorgeschlagene Methode eine vielversprechende Verbesserung der Leistung im Vergleich zu früheren Methoden des aktuellen Stands der Technik erzielt.
Ahn et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: