【2021.6.21概覽】arxiv每日語音合成相關更新

作者：由 LabmemZhouyx 發表于書法時間：2021-06-21

今日合成相關的有兩篇，都是關於VAE、style的論文。

1】

Improving Performance of Seen and Unseen Speech Style Transfer in End-to-end Neural TTS

西北工業大學

概覽：本文為解決風格遷移時出現訓練集中unseen style導致遷移效果較差的問題，引入逆自迴歸流（IAF）結構編碼風格表徵，從而改善變分推斷過程（variational inference）。並在訓練中用到了4個損失函式：mel譜重建loss，對抗loss，風格失真loss，保留說話人特徵的cycle consistency loss。此外，該模型的Decoder和聲碼器部分基於Tacotron2 + LPCNet。

demo地址：

https：//

xiaochunan。github。io/tr

ansfer/index。html

個人看法：如論文中所述，該方法可以用來對普通TTS資料集做風格上的資料增強；IAF之前不瞭解，關注。

論文地址：

https：//

arxiv。org/abs/2106。1000

IAF論文地址：

https：//

arxiv。org/abs/1606。0493

2】

A learned conditional prior for the VAE acoustic space of a TTS system（Interspeech 2021）

亞馬遜

概覽：本文提出了一個在TTS中計算VAE先驗分佈的方法，從而使合成韻律更豐富、得到隱空間的可控性。做法上，將speaker vector為條件從次級VAE（Secondary VAE）得到的先驗分佈用於從主VAE（Primary VAE）中的取樣，這樣便可在隱空間中特定區域（比如某個說話人相關）進行取樣生成音訊。