February 16, 2024Open Access

Spike-EVPR: Red Profunda de Picos Residuales con Agregación de Representación Cruzada para el Reconocimiento Visual Basado en Eventos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las cámaras de eventos se han aplicado con éxito a tareas de reconocimiento visual de lugares (VPR) utilizando redes neuronales artificiales profundas (ANN) en los últimos años. Sin embargo, las arquitecturas de ANN profundas propuestas anteriormente a menudo son incapaces de aprovechar la abundante información temporal presentada en los flujos de eventos. En contraste, las redes neuronales profundas de picos exhiben dinámicas espaciotemporales más complejas y son intrínsecamente adecuadas para procesar flujos de eventos asíncronos dispersos. Desafortunadamente, introducir directamente volúmenes de eventos densos en el tiempo en la red de picos introduce pasos de tiempo excesivos, lo que resulta en costos de entrenamiento prohibitivamente altos para tareas VPR a gran escala. Para abordar los problemas mencionados, proponemos una nueva arquitectura de red de picos profunda llamada Spike-EVPR para tareas VPR basadas en eventos. Primero, introducimos dos nuevas representaciones de eventos adaptadas para SNN para aprovechar al máximo la información espaciotemporal de los flujos de eventos y reducir la ocupación de memoria de video durante el entrenamiento tanto como sea posible. Luego, para aprovechar el potencial completo de estas dos representaciones, construimos un Codificador Residual de Picos Bifurcado (BSR-Encoder) con poderosas capacidades representativas para extraer mejor las características de alto nivel de las dos representaciones de eventos. A continuación, introducimos un Extractor de Descriptores Compartidos y Específicos (SSD-Extractor). Este módulo está diseñado para extraer características compartidas entre las dos representaciones y características específicas de cada una. Finalmente, proponemos un Módulo de Agregación de Descriptores Cruzados (CDA-Module) que fusiona las tres características anteriores para generar un descriptor global refinado y robusto de la escena. Nuestros resultados experimentales indican el rendimiento superior de nuestro Spike-EVPR en comparación con varias tuberías EVPR existentes en los conjuntos de datos Brisbane-Event-VPR y DDD20, con el Recall@1 promedio aumentado en un 7.61% en Brisbane y en un 13.20% en DDD20.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo