而端到端的語音合成模型,只需要對文字語音進行簡單的處理,就能餵給模型進行學習,極大的減少的人工干預,對文字的處理只需要進行文字規範化以及分詞token轉換(論文中使用character,不過就語音合成而言,使用Phoneme字典更佳),關於
它輸出還會有個後處理才產生聲音訊譜
4、Tacotron + WaveNet Vocoder在上一節中我們已經訓練好了一個帶 condition 的 WaveNet,這個模型可以根據輸入的 Mel-Spectrum 還原波形,但要構建一個完整的 TTS 系統,我們還需要生成