Key points are not available for this paper at this time.
Mit dem Fortschritt in der automatischen Spracherkennung hat die Sprachbenutzeroberfläche in letzter Zeit an Popularität gewonnen. Seit der COVID-19-Pandemie wird VUI in der Online-Kommunikation zunehmend bevorzugt, da es kontaktlos ist. Darüber hinaus behindern verschiedene Umgebungsgeräusche die öffentlichen Anwendungen von Sprachbenutzeroberflächen aufgrund der Anforderungen an audio-only Spracherkennungsmethoden für ein hohes Signal-Rausch-Verhältnis. In diesem Papier präsentieren wir Wavoice, das erste geräuschresistente multimodale Spracherkennungssystem, das zwei verschiedene Sprachsensing-Modalitäten, d.h. Millimeterwellen (mmWave)-Signale und Audiosignale von einem Mikrofon, zusammenführt. Ein wichtiger Beitrag ist, dass wir die inhärente Korrelation zwischen mmWave- und Audiosignalen modellieren. Darauf basierend erleichtert Wavoice die Echtzeitgeräuschresistente Spracherkennung und Nutzeridentifizierung von mehreren Sprechern. Darüber hinaus erläutern wir zwei neuartige Module im neuronalen Aufmerksamkeitsmechanismus zur Fusion multimodaler Signale, was zu genauer Spracherkennung führt. Umfangreiche Experimente bestätigen die Wirksamkeit von Wavoice unter verschiedenen Bedingungen mit einer Zeichenerkennungsfehlerquote von unter 1% in einem Abstand von 7 Metern. Wavoice übertrifft bestehende audio-only Spracherkennungsmethoden mit einer niedrigeren Zeichenfehlerquote und Wortfehlerquote. Die Bewertung in komplexen Szenen validiert die Robustheit von Wavoice.
Liu et al. (Thu,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: