Key points are not available for this paper at this time.
我們提議一個跨語言的神經編解碼器語言模型VALL-E X,用於跨語言語音合成。具體而言,我們擴展了VALL-E,並訓練了一個多語言條件編解碼器語言模型,通過使用源語言語音和目標語言文本作為提示,來預測目標語言語音的聲學標記序列。VALL-E X 繼承了強大的上下文學習能力,並可應用於零次跨語言文字到語音合成和零次語音到語音翻譯任務。實驗結果顯示,它可以僅通過一次源語言的語音發話,生成目標語言的高質量語音,同時保留未見講者的聲音、情感和聲學環境。此外,VALL-E X 有效地緩解了外國口音問題,這可以由語言ID控制。音頻樣本可在https: //aka. ms/vallex獲得。
Zhangら(火曜日)がこの問題を研究しました。