Los puntos clave no están disponibles para este artículo en este momento.
En este artículo, nos centramos en el reconocimiento de gestos aislados y exploramos diferentes modalidades mediante la implicación de flujos RGB, flujos de profundidad y flujos de saliencia para la inspección. Nuestro objetivo es llevar los límites de este ámbito aún más lejos proponiendo un marco unificado que explote las ventajas de la fusión multimodal. Específicamente, se ha propuesto una arquitectura de red espacial-temporal basada en votación de consenso para modelar explícitamente la estructura a largo plazo de la secuencia de video y reducir la varianza de estimación cuando se enfrenta a variaciones interclase comprehensivas. Además, se agrega una red convolucional de profundidad-saliencia tridimensional en paralelo para capturar características sutiles de movimiento. Se realizan extensos experimentos para analizar el rendimiento de cada componente y nuestro enfoque propuesto logra los mejores resultados en dos benchmarks públicos, ChaLearn IsoGD y RGBD-HuDaAct, superando al competidor más cercano por un margen de más del 10% y 15%, respectivamente. Nuestro proyecto y códigos se publicarán en https://davidsonic.github.io/index/acmₜomm₂017.html.
Duan et al. (Mié,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: