Key points are not available for this paper at this time.
Les modèles de machine learning basés sur l'apprentissage profond ont montré des résultats significatifs dans la reconnaissance vocale et de nombreuses tâches liées à la vision. La performance du modèle de reconnaissance vocale à texte présenté repose sur les hyperparamètres utilisés dans ce travail de recherche. Ce travail montre que les réseaux de neurones convolutifs (CNN) peuvent modéliser des signaux vocaux bruts et tonals. Leur performance est comparable à celle des systèmes de reconnaissance existants. Cette étude étend le rôle de l'approche basée sur les CNN aux signaux vocaux robustes et peu courants (tonals) en utilisant sa propre base de données conçue pour la recherche ciblée. L'objectif principal de ce travail de recherche était de développer un système de reconnaissance vocale à texte pour reconnaître les signaux vocaux tonals des hymnes Gurbani en utilisant un CNN. De plus, le modèle CNN, avec six couches de 2DConv, 2DMax Pooling, et 256 unités dans la couche dense (service TensorFlow de Google), a également été utilisé dans ce travail, ainsi que Praat pour la segmentation vocale. L'extraction de caractéristiques a été réalisée à l'aide de la technique d'extraction de caractéristiques MFCC, qui extrait des caractéristiques vocales standard et des caractéristiques de musique de fond. Notre étude révèle que la méthode basée sur les CNN pour identifier les phrases vocales tonales et ajouter des connaissances instrumentales fonctionne mieux que les approches existantes et conventionnelles. Les résultats expérimentaux démontrent la performance significative de l'architecture CNN présente en fournissant un taux de précision de 89,15 % et un WER de 10,56 % pour des phrases de signaux vocaux avec un vocabulaire continu et étendu comportant différentes tonalités.
Dua et al. (Sun,) ont étudié cette question.