Los puntos clave no están disponibles para este artículo en este momento.
En este trabajo, nuestros objetivos son dos: reconocimiento de lenguaje de señas continuo de gran vocabulario (CSLR) y recuperación de lenguaje de señas. Para ello, introducimos un modelo Transformer de múltiples tareas, CSLR2, que puede procesar una secuencia de señas y generar resultados en un espacio de incrustación conjunta entre el lenguaje de señas y el texto del lenguaje hablado. Para permitir la evaluación de CSLR en el contexto de gran vocabulario, introducimos nuevas anotaciones de conjuntos de datos que han sido recopiladas manualmente. Estas proporcionan anotaciones a nivel de seña continuas para seis horas de videos de prueba, y estarán disponibles públicamente. Demostramos que, mediante una elección cuidadosa de funciones de pérdida, entrenar el modelo tanto para las tareas de CSLR como de recuperación es mutuamente beneficioso en términos de rendimiento: la recuperación mejora el rendimiento de CSLR al proporcionar contexto, mientras que CSLR mejora la recuperación con una supervisión más detallada. Además, mostramos los beneficios de aprovechar la supervisión débil y ruidosa de conjuntos de datos de gran vocabulario como BOBSL, es decir, pseudotags a nivel de seña y subtítulos en inglés. Nuestro modelo supera significativamente el anterior estado del arte en ambas tareas.
Raude et al. (Jue,) estudiaron esta cuestión.