Key points are not available for this paper at this time.
Cet article décrit un modèle dans lequel le signal acoustique de la parole est traité pour produire une représentation discrète du flux de parole en termes d'une séquence de segments, chacun étant décrit par un ensemble (ou un faisceau) de traits distinctifs binaires. Ces traits distinctifs spécifient les contrastes phonémiques utilisés dans la langue, de sorte qu'un changement de valeur d'un trait peut potentiellement générer un nouveau mot. Ce modèle fait partie d'un modèle plus général qui dérive une séquence de mots à partir de cette représentation des traits, les mots étant représentés dans un lexique par des séquences de faisceaux de traits. Le traitement du signal se déroule en trois étapes : (1) La détection des pics, des vallées et des discontinuités dans des plages de fréquences particulières du signal permet d'identifier des repères acoustiques. Le type de repère fournit des indices pour un sous-ensemble de traits distinctifs appelés traits libres d'articulaires (par exemple, voyelle, consonne, continuant). (2) Des paramètres acoustiques sont dérivés du signal à proximité des repères pour fournir des indicateurs sur les actions de certains articulaires, et des indices acoustiques sont extraits en échantillonnant des attributs sélectionnés de ces paramètres dans ces régions. La sélection des indices extraits dépend du type de repère et de l'environnement dans lequel il se produit. (3) Les indices obtenus à l'étape (2) sont combinés, en tenant compte du contexte, pour fournir des estimations des traits "liés aux articulaires" associés à chaque repère (par exemple, lèvres, haut, nasal). Ces traits liés aux articulaires, combinés avec les traits libres d'articulaires de (1), constituent la séquence de faisceaux de traits qui forme la sortie du modèle. Des exemples d'indices utilisés et des justifications pour cette sélection sont fournis, ainsi que des exemples du processus d'inférence des traits sous-jacents pour un segment lorsque la variabilité dans le signal est due à des gestes d'amélioration (recrutés par un locuteur pour rendre un contraste plus saillant) ou à des chevauchements de gestes provenant de segments voisins.
Kenneth N. Stevens (Mon,) a étudié cette question.