您當前的位置:首頁 > 書法

【2021.6.21概覽】arxiv每日語音合成相關更新

作者:由 LabmemZhouyx 發表于 書法時間:2021-06-21

今日合成相關的有兩篇,都是關於VAE、style的論文。

1】

Improving Performance of Seen and Unseen Speech Style Transfer in End-to-end Neural TTS

西北工業大學

概覽:本文為解決風格遷移時出現訓練集中unseen style導致遷移效果較差的問題,引入逆自迴歸流(IAF)結構編碼風格表徵,從而改善變分推斷過程(variational inference)。並在訓練中用到了4個損失函式:mel譜重建loss,對抗loss,風格失真loss,保留說話人特徵的cycle consistency loss。此外,該模型的Decoder和聲碼器部分基於Tacotron2 + LPCNet。

demo地址:

https://

xiaochunan。github。io/tr

ansfer/index。html

【2021.6.21概覽】arxiv每日語音合成相關更新

個人看法:如論文中所述,該方法可以用來對普通TTS資料集做風格上的資料增強;IAF之前不瞭解,關注。

論文地址:

https://

arxiv。org/abs/2106。1000

3

IAF論文地址:

https://

arxiv。org/abs/1606。0493

4

2】

A learned conditional prior for the VAE acoustic space of a TTS system(Interspeech 2021)

亞馬遜

概覽:本文提出了一個在TTS中計算VAE先驗分佈的方法,從而使合成韻律更豐富、得到隱空間的可控性。做法上,將speaker vector為條件從次級VAE(Secondary VAE)得到的先驗分佈用於從主VAE(Primary VAE)中的取樣,這樣便可在隱空間中特定區域(比如某個說話人相關)進行取樣生成音訊。

【2021.6.21概覽】arxiv每日語音合成相關更新

個人看法:做controllable TTS裡VAE的論文。

論文地址:

https://

arxiv。org/abs/2106。1022

9

標簽: vae  TTS  loss  https  論文