您當前的位置:首頁 > 書法

【2021.11.29-30概覽】arxiv每日語音合成相關更新

作者:由 LabmemZhouyx 發表于 書法時間:2021-11-30

1】

V2C: Visual Voice Cloning

阿德萊德大學(澳洲),華南理工大學

概覽:現存語音克隆任務都是根據一條參考音訊對指定文字合成目標語音,並不適用於電影配音等需要語音情感和畫面一致的場景。為了填補該空缺,本文提出了視覺語音克隆(V2C)這個任務,它在做TTS的時候既考慮reference audio的音色也考慮reference video的情感。在這篇文章中,針對該任務提出了一個V2C-Animation的動畫配音資料集,以及一個比較好的baseline V2C-Net(基於FastSpeech2),另外還設計了一組評價指標(MCD-DTW-SL)用來評價GT和Syn語音的相似度。

【2021.11.29-30概覽】arxiv每日語音合成相關更新

個人看法:融合了video、audio、text等輸入的多模態TTS,比較有價值的方向,語音克隆的應用場景主要是電子書、影視、遊戲配音,這裡面確實需要考慮到和畫面人物表情、情感的一致性。

論文地址:

https://

arxiv。org/abs/2111。1289

0

2】

How Deep Are the Fakes? Focusing on Audio Deepfake: A Survey

馬里蘭大學

概覽:Audio DeepFake綜述,涵蓋如何生成和檢測音訊的DeepFake。

個人看法:用來了解該領域。

論文地址:

https://

arxiv。org/abs/2111。1420

3

標簽: 語音  V2C  配音  克隆  TTS