Los puntos clave no están disponibles para este artículo en este momento.
Las técnicas actuales de verificación de hablantes se basan en una red neuronal para extraer representaciones del hablante. La exitosa arquitectura x-vector es una Red Neural de Retardo Temporal (TDNN) que aplica agrupación de estadísticas para proyectar enunciados de longitud variable en incrustaciones de características del hablante de longitud fija. En este artículo, proponemos múltiples mejoras a esta arquitectura basadas en tendencias recientes en los campos relacionados de verificación facial y visión por computadora. En primer lugar, las capas de cuadro iniciales pueden reestructurarse en módulos Res2Net unidimensionales con conexiones de salto impactantes. De manera similar a SE-ResNet, introducimos bloques de Compresión y Excitación en estos módulos para modelar explícitamente las interdependencias entre canales. El bloque SE expande el contexto temporal de la capa de cuadro al redefinir la escala de los canales de acuerdo con las propiedades globales de la grabación. En segundo lugar, se sabe que las redes neuronales aprenden características jerárquicas, donde cada capa opera a un nivel diferente de complejidad. Para aprovechar esta información complementaria, agrupamos y propagamos características de diferentes niveles jerárquicos. Finalmente, mejoramos el módulo de agrupación de estadísticas con atención de cuadro dependiente del canal. Esto permite que la red se enfoque en diferentes subconjuntos de cuadros durante cada una de las estimaciones de estadísticas del canal. La arquitectura ECAPA-TDNN propuesta supera significativamente a los sistemas basados en TDNN de vanguardia en los conjuntos de pruebas VoxCeleb y en el Desafío de Reconocimiento de Hablantes VoxCeleb 2019.
Desplanques et al. (Sun,) estudiaron esta cuestión.