Key points are not available for this paper at this time.
La durée des segments de parole a traditionnellement été contrôlée dans les évaluations de reconnaissance des locuteurs NIST, afin que les chercheurs travaillant dans ce cadre soient dispensés de la responsabilité de gérer la variabilité de durée qui se manifeste dans les applications pratiques. La représentation i-vector à dimension fixe des énoncés de parole est idéale pour travailler dans de telles conditions contrôlées et ignorer le fait que les i-vecteurs extraits d'énoncés courts sont moins fiables que ceux extraits d'énoncés longs conduit à une formulation très simple du problème de reconnaissance du locuteur. Cependant, une approche plus réaliste semble nécessaire pour traiter correctement la variabilité de durée. Dans cet article, nous montrons comment quantifier l'incertitude associée au processus d'extraction des i-vecteurs et la propager dans un classificateur PLDA. Nous avons évalué cette approche en utilisant des ensembles de tests dérivés des conditions de base et des conditions de base élargies du NIST 2010 en tronquant aléatoirement les énoncés dans les essais de parole téléphonique féminine afin que les durées de tous les énoncés d'inscription et de test se situent dans la plage de 3 à 60 secondes, et nous avons constaté que cela entraînait des améliorations substantielles de précision. Bien que le calcul du rapport de vraisemblance pour la vérification des locuteurs soit plus coûteux en termes de calcul que dans le classificateur i-vector/PLDA standard, il reste cependant assez modeste car il se réduit au calcul des fonctions de densité de probabilité de deux Gaussiennes à covariance pleine (indépendamment du nombre d'énoncés utilisés pour inscrire un locuteur).
Kenny et al. (Mercredi) ont étudié cette question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: