December 17, 2002

HTKを使用した大語彙連続音声認識

Key Points

Key points are not available for this paper at this time.

Abstract

HTKは、ケンブリッジ大学の音声グループによって開発された連続密度隠れマルコフモデルを使用して音声認識システムを構築するためのポータブルソフトウェアツールキットです。特に成功したシステムの一つは、混合密度結びつけ状態三音を使用します。この技術を5k/20k語のARPAウォールストリートジャーナル（WSJ）タスクに使用しました。私たちは言葉内部の性別独立モデリングから、決定木ベースの状態クラスタリング、越単語三音、性別依存モデルの使用にアプローチを拡張しました。現在のシステムは、単一パス動的ネットワークデコーダーを使用して、バイグラムまたはトライグラム言語モデルのいずれかで実行できます。これらの技術に基づくシステムは、1993年11月のARPA WSJ評価に含まれ、5k語バイグラム、5k語トライグラムおよび20k語バイグラム「ハブ」テストで報告された最低エラーレートを示し、20k語トライグラム「ハブ」テストでも第2位の低エラーレートを記録しました。

Bookmark

HTKを使用した大語彙連続音声認識

Key Points

Abstract

Cite This Study