What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Talk2Event: Comprensión fundamentada de escenas dinámicas a partir de cámaras de eventos

Puntos clave

EventRefer logra un anclaje de objetos mejorado en entornos dinámicos, aprovechando atributos para una mejor comprensión.
Se crearon más de 30,000 expresiones de referencia validadas para explorar la percepción impulsada por el lenguaje en la robótica.
El método se adapta a varias modalidades y dinámicas de escena, superando consistentemente técnicas de última generación.
Esta investigación tiene como objetivo avanzar en la percepción impulsada por el lenguaje y consciente del tiempo en sistemas autónomos del mundo real.

Resumen

Las cámaras de eventos ofrecen una latencia de nivel microsegundo y robustez frente al desenfoque de movimiento, lo que las hace ideales para comprender entornos dinámicos. Sin embargo, conectar estos flujos asíncronos con el lenguaje humano sigue siendo un desafío abierto. Introducimos Talk2Event, el primer banco de pruebas a gran escala para la anclaje de objetos impulsado por el lenguaje en la percepción basada en eventos. Construido a partir de datos de conducción del mundo real, proporcionamos más de 30,000 expresiones de referencia validadas, cada una enriquecida con cuatro atributos de anclaje: apariencia, estado, relación con el espectador y relación con otros objetos, vinculando el razonamiento espacial, temporal y relacional. Para explotar plenamente estas pistas, proponemos EventRefer, un marco de anclaje consciente de atributos que fusiona dinámicamente representaciones multiatributo a través de una Mezcla de Expertos en Atributos de Eventos (MoEE). Nuestro método se adapta a diferentes modalidades y dinámicas de escena, logrando mejoras consistentes sobre las líneas base de última generación en configuraciones solo de eventos, solo de fotogramas y fusión evento-fotograma. Esperamos que nuestro conjunto de datos y enfoque establezcan una base para avanzar en la percepción multimodal, temporalmente consciente y guiada por el lenguaje en la robótica y la autonomía del mundo real.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo