【2021.11.29-30概覽】arxiv每日語音合成相關更新

作者：由 LabmemZhouyx 發表于書法時間：2021-11-30

1】

V2C: Visual Voice Cloning

阿德萊德大學（澳洲），華南理工大學

概覽：現存語音克隆任務都是根據一條參考音訊對指定文字合成目標語音，並不適用於電影配音等需要語音情感和畫面一致的場景。為了填補該空缺，本文提出了視覺語音克隆（V2C）這個任務，它在做TTS的時候既考慮reference audio的音色也考慮reference video的情感。在這篇文章中，針對該任務提出了一個V2C-Animation的動畫配音資料集，以及一個比較好的baseline V2C-Net（基於FastSpeech2），另外還設計了一組評價指標（MCD-DTW-SL）用來評價GT和Syn語音的相似度。