語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization
宣告:語音合成論文優選系列主要分享論文,分享論文不做直接翻譯,所寫的內容主要是我對論文內容的概括和個人看法。文章同列統計可訪問。
http://
yqli。tech/page/tts_pape
r。html
如有轉載,請標註來源。 歡迎關注微信公眾號:低調奮進
A Unified Transformer-based Framework for Duplex Text Normalization
本文為NVIDIA在2021。08。23更新的文章,主要的工作是使用一個模型對Text Normalization和 inverse text normalization兩個任務進行建模,從而簡化對話系統的管理,具體的文章連結
https://
arxiv。org/pdf/2108。0988
9。pdf
1 研究背景
一套完備的對話系統包括DSP、ASR、LU、LG、TTS等等模組,其中TN和iTN任務分別應用在TTS和ASR中。TN工作主要把手寫格式轉成口語格式,iTN則是逆過程,具體如圖1所示。現有系統都是分別對TN和ITN進行建模,這增加了系統複雜度和維護成本,因此本文研究使用一個模型對該兩個任務進行建模。
(TN建模一直沒有做過實驗,一方面缺少語料;另一方面,使用正則也基本上處理大量的case。當然要是具備大量的語料和公司允許,可以玩一下)
2 詳細設計
前端語言類的模型基本上不太複雜,本文的系統如圖2所示,包括兩個部分:Tagger和Normalizer。其中Tagger主要對輸入的文字進行分類,判斷那部分需要進行TN/ITN處理,其中分類如table 1所示。為了使TN/ITN共用一個模型,因此新增task indicator的字首。另外Tagger結構為Transfomer。Normalizer則是根據Tagger進行處理,其結構為seq2seq。另外本文也提出了圖3的資料增廣的策略。
3 實驗
首先從實驗結果table 3可以得知三點:第一,資料增廣可以提高準確率;第二,多重任務的模型稍微優於分開的單任務模型;第三,本文的方案優於現有的baseline 方案。同時,在內部的資料集上也得出相同的結果,如table 4。
4 總結
本文使用一個模型對TN和iTN雙重任務進行建模,不僅簡化了對話系統的管理,同時也提高了TN/iTN的句準。