【2021.6.21概覽】arxiv每日語音合成相關更新
今日合成相關的有兩篇,都是關於VAE、style的論文。
1】
Improving Performance of Seen and Unseen Speech Style Transfer in End-to-end Neural TTS
西北工業大學
概覽:本文為解決風格遷移時出現訓練集中unseen style導致遷移效果較差的問題,引入逆自迴歸流(IAF)結構編碼風格表徵,從而改善變分推斷過程(variational inference)。並在訓練中用到了4個損失函式:mel譜重建loss,對抗loss,風格失真loss,保留說話人特徵的cycle consistency loss。此外,該模型的Decoder和聲碼器部分基於Tacotron2 + LPCNet。
demo地址:
https://
xiaochunan。github。io/tr
ansfer/index。html
個人看法:如論文中所述,該方法可以用來對普通TTS資料集做風格上的資料增強;IAF之前不瞭解,關注。
論文地址:
https://
arxiv。org/abs/2106。1000
3
IAF論文地址:
https://
arxiv。org/abs/1606。0493
4
2】
A learned conditional prior for the VAE acoustic space of a TTS system(Interspeech 2021)
亞馬遜
概覽:本文提出了一個在TTS中計算VAE先驗分佈的方法,從而使合成韻律更豐富、得到隱空間的可控性。做法上,將speaker vector為條件從次級VAE(Secondary VAE)得到的先驗分佈用於從主VAE(Primary VAE)中的取樣,這樣便可在隱空間中特定區域(比如某個說話人相關)進行取樣生成音訊。
個人看法:做controllable TTS裡VAE的論文。
論文地址:
https://
arxiv。org/abs/2106。1022
9