February 28, 2010Open Access

Warum war es so schwierig, (vernünftigerweise genaue) automatische Spracherkennung zu erreichen?

Key Points

Key points are not available for this paper at this time.

Abstract

Verborgene Markov-Modelle (HMMs) werden seit mehr als 35 Jahren erfolgreich in der automatischen Spracherkennung angewendet, obwohl eine zentrale Annahme von HMMs -- die statistische Unabhängigkeit der Frames -- offensichtlich durch Sprachdaten verletzt wird. Tatsächlich hat diese Daten-/Modellabweichung viele Versuche inspiriert, HMMs mit alternativen Modellen zu modifizieren oder zu ersetzen, die besser in der Lage sind, die statistische Abhängigkeit der Frames zu berücksichtigen. Es ist jedoch fair zu sagen, dass 2010 das HMM das Konsensmodell der Wahl für die Spracherkennung ist und dass HMMs im Zentrum sowohl kommerziell verfügbarer Produkte als auch zeitgenössischer Forschungssysteme stehen. In diesem Papier präsentieren wir eine vorläufige Untersuchung, die darauf abzielt zu verstehen, wie Sprachdaten von HMMs abweichen und welche Auswirkungen diese Abweichung auf die Genauigkeit der HMM-basierten Spracherkennung hat. Unsere Analyse verwendet standardisierte diagnostische Werkzeuge aus dem Bereich der Statistik -- Hypothesentests, Simulation und Resampling -- die in der Spracherkennungsforschung selten eingesetzt werden. Unser Hauptergebnis, das durch neuartige Manipulationen von echten und neu abgetasteten Daten gewonnen wurde, zeigt, dass reale Daten statistische Abhängigkeiten aufweisen und dass diese Abhängigkeit für signifikante Mengen an Erkennungsfehlern verantwortlich ist. Wir zeigen auch, dass, wenn wir die statistische Abhängigkeit von den Daten 'entfernen', die resultierenden Erkennungsfehlerquoten vernachlässigbar werden. Zusammengenommen deuten diese Ergebnisse darauf hin, dass ein besseres Verständnis der Struktur der statistischen Abhängigkeit in Sprachdaten ein entscheidender erster Schritt zur Verbesserung der HMM-basierten Spracherkennung ist.

Bookmark

View Full Paper