Las cámaras de eventos ofrecen una latencia de nivel microsegundo y robustez frente al desenfoque de movimiento, lo que las hace ideales para comprender entornos dinámicos. Sin embargo, conectar estos flujos asíncronos con el lenguaje humano sigue siendo un desafío abierto. Introducimos Talk2Event, el primer banco de pruebas a gran escala para la anclaje de objetos impulsado por el lenguaje en la percepción basada en eventos. Construido a partir de datos de conducción del mundo real, proporcionamos más de 30,000 expresiones de referencia validadas, cada una enriquecida con cuatro atributos de anclaje: apariencia, estado, relación con el espectador y relación con otros objetos, vinculando el razonamiento espacial, temporal y relacional. Para explotar plenamente estas pistas, proponemos EventRefer, un marco de anclaje consciente de atributos que fusiona dinámicamente representaciones multiatributo a través de una Mezcla de Expertos en Atributos de Eventos (MoEE). Nuestro método se adapta a diferentes modalidades y dinámicas de escena, logrando mejoras consistentes sobre las líneas base de última generación en configuraciones solo de eventos, solo de fotogramas y fusión evento-fotograma. Esperamos que nuestro conjunto de datos y enfoque establezcan una base para avanzar en la percepción multimodal, temporalmente consciente y guiada por el lenguaje en la robótica y la autonomía del mundo real.
Kong et al. (mié,) estudiaron esta cuestión.