語音合成論文優選:A Unified Transformer-based Framework for Duplex Text Normalization

作者：由李永強發表于歷史時間：2021-08-24

宣告：語音合成論文優選系列主要分享論文，分享論文不做直接翻譯，所寫的內容主要是我對論文內容的概括和個人看法。文章同列統計可訪問。

http：//

yqli。tech/page/tts_pape

r。html

如有轉載，請標註來源。歡迎關注微信公眾號：低調奮進

A Unified Transformer-based Framework for Duplex Text Normalization

本文為NVIDIA在2021。08。23更新的文章，主要的工作是使用一個模型對Text Normalization和 inverse text normalization兩個任務進行建模，從而簡化對話系統的管理，具體的文章連結

https：//

arxiv。org/pdf/2108。0988

9。pdf

1 研究背景

一套完備的對話系統包括DSP、ASR、LU、LG、TTS等等模組，其中TN和iTN任務分別應用在TTS和ASR中。TN工作主要把手寫格式轉成口語格式，iTN則是逆過程，具體如圖1所示。現有系統都是分別對TN和ITN進行建模，這增加了系統複雜度和維護成本，因此本文研究使用一個模型對該兩個任務進行建模。

（TN建模一直沒有做過實驗，一方面缺少語料；另一方面，使用正則也基本上處理大量的case。當然要是具備大量的語料和公司允許，可以玩一下）

2 詳細設計

前端語言類的模型基本上不太複雜，本文的系統如圖2所示，包括兩個部分：Tagger和Normalizer。其中Tagger主要對輸入的文字進行分類，判斷那部分需要進行TN/ITN處理，其中分類如table 1所示。為了使TN/ITN共用一個模型，因此新增task indicator的字首。另外Tagger結構為Transfomer。Normalizer則是根據Tagger進行處理，其結構為seq2seq。另外本文也提出了圖3的資料增廣的策略。