March 7, 2023Open Access

自分の声で外国語を話す：跨言語ニューラルコーデック言語モデリング

Key Points

Key points are not available for this paper at this time.

Abstract

我們提議一個跨語言的神經編解碼器語言模型VALL-E X，用於跨語言語音合成。具體而言，我們擴展了VALL-E，並訓練了一個多語言條件編解碼器語言模型，通過使用源語言語音和目標語言文本作為提示，來預測目標語言語音的聲學標記序列。VALL-E X 繼承了強大的上下文學習能力，並可應用於零次跨語言文字到語音合成和零次語音到語音翻譯任務。實驗結果顯示，它可以僅通過一次源語言的語音發話，生成目標語言的高質量語音，同時保留未見講者的聲音、情感和聲學環境。此外，VALL-E X 有效地緩解了外國口音問題，這可以由語言ID控制。音頻樣本可在https: //aka. ms/vallex獲得。

Bookmark

View Full Paper

Bookmark

View Full Paper

自分の声で外国語を話す：跨言語ニューラルコーデック言語モデリング

Key Points

Abstract

Cite This Study