Key points are not available for this paper at this time.
VALL-Eのような言語モデルに基づくテキスト読み上げ(TTS)モデルは、ゼロショットシナリオにおける優れた文脈内学習能力で注目を集めています。ニューラルスピーチコーデックは、これらのモデルの重要なコンポーネントであり、スピーチを離散トークン表現に変換することができます。しかし、コーデックからの過剰なトークンシーケンスは、予測精度に悪影響を及ぼし、言語モデルベースのTTSモデルの進行を制限する可能性があります。この問題に対処するために、本論文ではTiCodecと呼ばれる時間不変コードを用いた新しいニューラルスピーチコーデックを提案します。TiCodecは、時間不変情報を別のコードにエンコードおよび量子化することにより、エンコードする必要があるフレームレベルの情報量を減少させ、スピーチのコードとしてのトークン数を効果的に減らします。さらに、本論文では、発話内の時間不変コードの一貫性を高めるための時間不変エンコーディング一貫性損失を導入し、ゼロショットTTSタスクに利益をもたらします。実験結果は、TiCodecがトークン数を少なくして再構成音声の品質を向上させるだけでなく、類似性と自然さを高め、TTSモデルによる合成音声の単語誤り率を低下させることを示しています。コードはhttps://github.com/y-ren16/TiCodecで公開されています。
Renら(Mon,)はこの問題を研究しました。