您當前的位置:首頁 > 歷史

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

作者:由 李永強 發表于 歷史時間:2021-08-24

宣告:語音合成論文優選系列主要分享論文,分享論文不做直接翻譯,所寫的內容主要是我對論文內容的概括和個人看法。文章同列統計可訪問。

http://

yqli。tech/page/tts_pape

r。html

如有轉載,請標註來源。 歡迎關注微信公眾號:低調奮進

A Unified Transformer-based Framework for Duplex Text Normalization

本文為NVIDIA在2021。08。23更新的文章,主要的工作是使用一個模型對Text Normalization和 inverse text normalization兩個任務進行建模,從而簡化對話系統的管理​,具體的文章連結

https://

arxiv。org/pdf/2108。0988

9。pdf

​1 研究背景

一套完備的對話系統包括DSP、ASR、LU、LG、TTS等等模組,其中TN和iTN任務分別應用在TTS和ASR中。TN工作主要把手寫格式轉成口語格式,iTN則是逆過程,具體如圖1所示​。現有系統都是分別對TN和ITN進行建模,這增加了系統複雜度和維護成本,因此本文研究使用一個模型對該兩個任務進行建模​。

(TN建模一直沒有做過實驗,一方面缺少語料;另一方面,使用正則也基本上處理大量的case。當然要是具備大量的語料和公司允許,可以玩一下)

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

2 詳細設計

前端語言類的模型基本上不太複雜,本文的系統如圖2所示,包括兩個​部分:Tagger和​Normalizer。其中Tagger主要對輸入的文字進行分類,判斷那部分需要進行TN/ITN處理,其中分類如table 1所示​。為了使TN/ITN共用一個模型,因此新增task indicator的​字首。另外Tagger結構為Transfomer。Normalizer則是根據Tagger進行處理,其結構為seq2seq​。另外本文也提出了圖3​的資料增廣的策略。

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

3 實驗

首先從實驗結果table 3可以得知三點​:第一,資料增廣可以提高準確率​;第二,多重任務的模型稍微優於分開的單任務模型​;第三,本文的方案優於現有的baseline ​方案。同時,在內部的資料集上也得出相同的結果,如table 4​。

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

4 總結

本文使用一個模型對TN和iTN雙重任務進行建模,不僅簡化了對話系統的管理,同時也提高了TN/iTN的句準。

標簽: TN  建模  iTN  Tagger  本文