Key points are not available for this paper at this time.
本論文では、AISHELL-3を紹介します。これは、大規模で高忠実度のマルチスピーカー標準中国語音声コーパスであり、マルチスピーカーのテキスト読み上げ(TTS)システムの訓練に使用できます。このコーパスには、218人の中国語母語話者によって話された、約85時間の感情中立の録音が含まれています。性別、年齢層、および母国訛りなどの補助属性が明示的にマークされ、コーパスに提供されています。それに応じて、中国の文字レベルとピンインレベルの transcripts が録音と共に提供されています。AISHELL-3を使用したマルチスピーカー標準中国語音声合成の基準システムを提案します。このマルチスピーカー音声合成システムは、Tacotron-2において講演者確認モデルと声の類似性に関する対応する損失がフィードバック制約として組み込まれる拡張です。提案されたコーパスを使用して、ゼロショットの声クローンを実現できる堅牢な合成モデルを構築することを目指しています。このデータセットで訓練されたシステムは、訓練過程で見られなかった話者にも一般化が良好です。実験からの客観的評価結果は、提案されたマルチスピーカー合成システムが、話者埋め込みの類似性および同エラー率測定に関して高い声の類似性を達成することを示しています。このデータセット、基準システムのコード、および生成されたサンプルはオンラインで入手可能です。
Shi et al. (Thu,) はこの問題を研究しました。