Key points are not available for this paper at this time.
大規模言語モデル(LLM)に基づくテキスト読み上げ(TTS)システムは、大規模な音声データセットを処理し、新しいスピーカーのために自然な音声を生成する驚異的な能力を示しています。しかし、LLMベースのTTSモデルはロバストではなく、生成された出力には繰り返しの単語、欠落した単語、および誤アライメントの音声(ハルシネーションまたは注意エラーと呼ばれる)が含まれる可能性があります。特に、テキストに同じトークンの複数の出現が含まれる場合にそうです。私たちは、エンコーダーデコーダー変換器モデルにおけるこれらの課題を検討し、音声トークンの予測のためにトレーニングされた際に、モデル内の特定のクロスアテンションヘッドがテキストと音声のアライメントを暗黙的に学習することを発見しました。アライメントをよりロバストにするために、テキストトークンに対するモノトニッククロスアテンションを促すCTC損失と注意先行の利用技術を提案します。私たちの誘導された注意トレーニング技術は、新しい学習可能なパラメータを導入せず、LLMベースのTTSモデルのロバスト性を大幅に向上させます。
Neekharaら(火曜日)はこの質問を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: