Key points are not available for this paper at this time.
Nous présentons une approche novatrice du traitement de la parole basée sur le principe de découverte de motifs. Notre travail représente un pas en avant par rapport aux modèles traditionnels de reconnaissance vocale, où l'objectif final est de classer la parole en catégories définies par un inventaire prédéfini d'unités lexicales (c'est-à-dire, des phonèmes ou des mots). Au lieu de cela, nous essayons de découvrir un tel inventaire de manière non supervisée en exploitant la structure des motifs répétitifs au sein du signal vocal. Nous montrons comment la découverte de motifs peut être utilisée pour acquérir automatiquement des entités lexicales directement à partir d'un flux audio non transcrit. Notre approche d'acquisition de mots non supervisée utilise une variante segmentale d'une technique de programmation dynamique largement utilisée, qui nous permet de trouver des motifs acoustiques correspondants entre des énoncés prononcés. En agrégeant des informations sur ces motifs correspondants à travers des flux audio, nous démontrons comment regrouper des séquences acoustiques similaires pour former des clusters correspondant à des entités lexicales telles que des mots et de courtes phrases multi-mots. Sur un corpus de matériel de conférence académique, nous démontrons que les clusters trouvés en utilisant cette technique présentent une haute pureté et que beaucoup des identités lexicales correspondantes sont pertinentes pour le flux audio sous-jacent.
Park et al. (Thu,) ont étudié cette question.