語音識別E2E小結

作者：由水中的魚發表于體育時間：2020-12-02

非原創。

語音識別（Automatic Speech Recognition，ASR）是要完成輸入音訊的取樣序列到字元序列的對映任務。傳統識別模組主要包含聲學模型，字典，語言模型三個部分，其中聲學模型用於將輸入特徵轉化為聲學單元的後驗機率，字典用於表示聲學單元序列到字元的對映關係，而語言模型則用於表示字元上下文之間的條件機率。由於聲學模型的訓練需要預知聲學單元和輸入特徵之間的對齊資訊，而常見的聲學單元，比如CD-state，CD-phone等的時間對齊資訊無法直接從抄本中的字元序列中獲知。因此，DNN等聲學模型的訓練需要以傳統的HMM-GMM模型進行啟動引導，獲得幀級別的狀態標籤，這一步操作稱為對齊。也正是由於CD-state之類的建模單元顆粒度太小，無法直接轉化成字元級別的輸出，因此，需要融合字典，語言模型等資訊，資訊融合在聲學解碼器中進行。

因為抄本的長度往往小於特徵序列的長度，所以，實現特徵到序列直接對映的核心在於如何處理這種對齊關係。傳統的NN-HMM框架正是無法進行這種不等長的序列對映，因此才需要對齊和解碼。很顯然，我們期望的是一種更加自然的模型結構，可以直接以抄本作為label完成訓練，直接以字/詞作為輸出單元，從而簡化訓練和解碼流程。2012年之後，隨著傳統聲學建模技術的逐漸成熟，國內外學者和研究機構開始基於語音識別這種序列對映的特性，借鑑影象，機器翻譯領域的一些成功案例，開始嘗試端到端（End-to-End，E2E）的建模方法。

為了保持脈絡清晰，本部分會順著時間線介紹三種比較成熟的端到端的建模方法：CTC［13］［14］（Connectionist Temporal Classification）RNN Transducer［12］，Attention［5］［9］［10］機制及其在聲學建模中的應用，中間會穿插一些分析和討論，幫助理清思路。有些文章中會以Sequence to Sequence（Seq2Seq）的概念表達聲學建模中端到端的含義，在這裡統一稱為E2E。需要注意一點，本節所述方法的輸入均為聲學特徵，並非直接基於原始取樣訊號（raw waveform）建模。

CTC

最早被提出用於E2E訓練的是Alex Graves在2006年提出的CTC準則［13］，當時用於處理一些輸入和標籤不等長的問題中，比如手寫識別，語音識別等等。本質上說，CTC只是一個定義在序列上的損失函式，而非一種新的網路模型。傳統聲學模型是一個分類器，其損失函式交叉熵是一個定義在幀級別上的度量函式，最大化當前標籤被分類正確的機率，並不能很好的反映網路輸出的序列特性，而CTC將句子級別的對齊資訊融合在了損失函式中，透過最大化所有和和抄本對齊序列的機率和，實現E2E的模型訓練，這種方式由於包含了顯式的對齊計算，後來也常常稱之為硬對齊（hard-alignment）。

對齊路徑π和抄本y和是多對一關係，為了更好的描述這種關係，Graves額外引入了blank標籤ϵ的概念，用於隔斷不同字元，比如在T=5的約束下，抄本a，b的對齊序列可以是aϵbϵϵ，aϵϵϵb，ϵabϵϵ等等。用函式F描述π→y對映關係為F（π）=y。若定義輸入特徵序列x={x1，x1，⋯，xT}，那麼CTC損失準則表達為：

$\mathcal{L}_{\text{ctc}}(\mathbf{y}|\mathbf{x}) = \sum_{\pi \in \mathcal{F}^{-1}(\mathbf{y})} P(\pi | \mathbf{x})$

考慮π∈F−1的元素呈指數級增長，故在實際中採用動態規劃原理，即前向-後向演算法計算Lctc。為了計算P（π|x），Graves引入假設：在不同時刻，模型的輸出機率相互獨立，那麼根據條件機率公式，有

$P(\pi|\mathbf{x}) = \prod_{t = 1}^T P(y_{\pi}^t | \mathbf{x}_{1 \cdots t})$

其中

$P(y_{\pi}^t | \mathbf{x}_{1 \cdots t})$

用RNN的輸出層機率表示，需要注意的是，由於引入了blank符號ϵ，實際網路建模中輸出層節點需要在原建模單元個數之上加1，比如在TIMIT資料上，61個音素單元的輸出層個數應為62。網路訓練時，用梯度下降法最小化−Lctc。2006年Graves提出CTC時，用BLSTM建模獲得了30。51%的PER，超越了傳統的BLSTM-HMM（33。84%）方法。網路收斂時候，各個符號之間被blank隔斷，輸出機率分佈呈現尖峰特性，因此，透過簡單的greedy-search或者beam-search方法即可完成序列解碼。

不過，CTC最大的詬病在於Graves為了計算P（π|x）引入的假設，因為無論從聲學特性還是語言模型上說，相鄰時刻的輸出機率往往是極大相關的，因此，後續的其他方法往往會消除這樣的假設。

CTC based System

CTC被提出之後產生了很多成功的應用案例，結合不斷改進的RNN［27］，CNN［32］用於聲學建模的思路不斷出現，比較典型的算是百度矽谷研究院的Deep Speech［2］［16］系列。

Deep Speech 1，2是均以CTC準則構建的端到端識別系統。2014年，Deep Speech 1公佈，主體上沿用Graves等人的建模思路，但是在聲學模型上做了簡化。前三層為使用clipped ReLU（g（z）=min{max{0，z}，20}）作為啟用函式的全連線網路，第四層採用雙向RNN，第五層為全連線層，接受雙向RNN的輸出，輸出層使用CTC作為誤差準則。配合資料抖動和dropout等正則化最佳化技巧，Deep Speech 1最終在SWB+FSH 2000h資料集上超越了當時傳統方法最好的開源結果。

2014年到2016年之間，CNN［1］［26］以及BatchNorm［1］等正則化方法相繼被引入聲學建模中，並取得了很好的結果。Deep Speech 2在2016年公開，和DS1相比，聲學模型中加入瞭如下新的特性：

引入卷積層用於特徵抽取，替代之前的全連線層，在時域和頻域的二維卷積可以明顯增強聲學模型在噪聲環境下的識別魯棒性

RNN部分採用sequence-wise的BatchNorm，用於加速網路收斂，並且發現，隨著網路層數的加深，對收斂度的提升越好

使用Cho等人在2014年提出的GRU代替普通RNN，相比LSTM，GRU［8］可以獲得相近的結果，同時計算複雜度更小

在GRU層之上加入lookahead卷積層，用於獲取一些future context。

DS2在普通話和英語上同時取得了可觀的結果，在普通話帶噪測試集上，使用了BatchNorm和2D卷積的模型相比淺層的RNN在WER上有了48%的相對提升，並且在voice query資料上超越了人類水平。

Google在2017年提出的Neural Speech Recognizer［29］也是以CTC為準則的識別系統。NSR採用雙向LSTM建模，在超過12萬小時的資料上進行訓練，對比了CD-phone和word兩種建模單元，在YouTube轉寫任務上，以word作為建模單元的NSR超越了傳統CD-phone的ASR效果。

在開源社群CTC也相當活躍，Miao等人基於Kaldi語音識別工具包開源了eesen［20］，滿足了CTC和傳統聲學解碼器的耦合，Baidu開源了社群效率最高的CTC實現warp-ctc，在同等的計算量下，其耗時遠低於其他工具包，Facebook研究院開源了他們基於CTC的端到端識別工具wav2letter［11］，CUDNN7。0中也增加了CTC的API介面。此外，受到CTC的啟發，Dan等人提出的Lattice Free MMI（LF-MMI，chain model）［22］獲得巨大成功，一方面降低了區分性訓練的耗時，另一方面可以獲得8%的相對提升，被譽為聲學模型近幾年最大的創新。

RNN Transducer

為了進一步提升CTC的表現，Graves後來提出了RNN Transducer［12］結構，用於修正CTC在計算序列機率中的假設缺陷。思路是保留原CTC聲學模型（稱為轉錄網路）的同時，引入一個額外的網路，稱為為預測網路，用於對抄本序列的輸出進行預測，起到類似語言模型的作用。在t時刻，當前符號為u時，網路輸出符號k的機率表示為：

$P(k | t, u) = \frac{\exp(\mathbf{f}_t^k + \mathbf{g}_u^k)}{\sum_{k$

其中

$\mathbf{f}_t,\mathbf{g}_u$

表示轉錄和預測網路的輸出機率向量。訓練時，預測網路的輸入源自抄本序列，解碼時，預測網路的輸入來自轉錄網路的輸出，輸入採用one-hot編碼的形式，因此，在RNN Transducer中，P（π|x）的計算公式變為：

$P(\pi | \mathbf{x}) = \prod_{t=1}^T P(y_{\pi}^t | \mathbf{x}_{1 \cdots t}, \pi_{\{1,\cdots,t\}})$

從這裡可以看出，由於t時刻的輸出

$$y{\pi}^t$

會作為預測網路的輸入，因此，t+1時刻的輸出

$y{\pi}^{t+1}$

不在和

$y_{\pi}^t$

相互獨立，這種條件更加符合語音上下文之間的相關性。實驗中，一層128節點的預測網路和兩層128節點的轉錄網路在TIMIT上取得了23。2%的PER，相比純轉錄網路（25。5%），降低了2。3%個百分點。

在2013年，Graves用多層LSTM建模［15］，並用CTC網路的權值初始化轉錄網路，在TIMIT上取得了17。7%的PER，成為當時最好的結果，而同結構的CTC結果為18。6%。研究同時表明：

LSTM的建模能力遠遠超越普通RNN

網路走向深度的收益好於擴充套件寬度

雙向網路的建模能力勝於單向網路

RT的問題在於，轉錄網路和預測網路除了透過P（k|u，t）進行資訊融合之外，並不相互依賴，因此，二者較為獨立。其次，RT依舊保持了CTC設計中硬對齊部分，用於計算損失函式，在這點上計算複雜度較高，本質上說，屬於對CTC的改進。

Encoder-Decoder Structure

在提Attention機制之前需要先說一下Encoder-Decoder結構。Encoder-Decoder是Cho等人在2014年提出的一種包含兩個RNN的網路結構［8］，最初用於機器翻譯，也正是在這篇論文中，他們提出了LSTM的簡化版本GRU（Gated Recurrent Unit）。

在E-D結構中，編碼器用於將輸入的變長序列x編碼成定長表示c，而解碼器用於將此定長表示解碼成另一種符號序列y，兩個網路做聯合訓練，最大化條件機率P（y|x），以此完成序列對映。一般的，c用encoder掃描一遍x之後的hidden state表示。對於decoder，在生成yt時，接受上一時刻的輸出yt−1和c作為輸入，hidden state的更新表示為：

$\mathbf{s}_t = \mathcal{R}(\mathbf{s}_{t - 1}, y_{t - 1}, \mathbf{c})$

在生成t時刻生成yt的條件機率

$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x})$

表示為：

$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x}) = \mathcal{G}(\mathbf{s}_t, y_{t - 1}, \mathbf{c})$

其中G可以用一個帶有softmax輸出層的MLP表示。在E-D結構下，decoder生成序列y的條件機率可以根據條件機率公式得到：

$P(\mathbf{y} | \mathbf{x}) = \prod_t P(y_t |y_{<t}, \mathbf{x}) = \prod_{t} P(y_t | y_{1 \cdots (t - 1)}, \mathbf{c})$

透過引入編碼器，使得decoder的輸出不再直接依賴於輸入x，生成序列的長度也只取決於解碼的步數，這是這種結構能夠很好的處理變長序列對映問題的關鍵。但是這種結構會帶來兩個很明顯的問題：

由於RNN的記憶遺忘問題，實際中編碼器將輸入序列全部編碼成定長表示會造成表達能力不足以及資訊丟失等問題，這種問題往往隨著輸入序列的增長而愈加明顯。

即使全部資訊被編碼進定長表示，在解碼階段，未必每一步都需要全部的輸入資訊，比如關聯最大的可能僅僅和輸入序列對齊部分的上下文區間。

正是出於這種考慮，一種稱為attention機制的encoder-decoder結構被提出。這種結構摒棄了編碼器輸出定長編碼的限制，將編碼器hidden state的加權和輸入decoder，權重由網路自身學習得到。這種結構一來避免了長時輸入造成的資訊丟失，同時允許decoder自行學習注意的內容，更加符合實際。attention最早被應用於機器翻譯［3］，物體追蹤，影象主題生成，後來被Cho等人用於語音識別［9］［10］，並取得成功。

Attention Mechanism

在引入attention機制的encoder-decoder框架中，encoder用於將輸入特徵x1⋯T轉換為高層次的表示特徵h1⋯U，decoder用於根據表示特徵預測序列單元yt，編碼器和解碼器之間透過attention機制關聯。attention的作用是根據decoder的狀態st，結合h計算attention context ct，幫助解碼器預測輸出yt。

現在對上述過程進行符號化，不同於純粹的E-D結構，在生成t時刻生成yt的條件機率

$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x})$

在引入attention機制之後變為：

$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x}) = \mathcal{G}(\mathbf{s}_{i}, y_{t - 1}, \mathbf{c}_i)$

attention context

$\mathbf{c}_i$

為表示特徵

$\mathbf{h}_{1 \cdots U}$

的加權和，用

$\alpha_{ij}$

表示權值

$\mathbf{c}_i = \sum_{j = 1}^U \alpha_{ij} \mathbf{h}_j$

，這裡引入的αi就是attention weight，其計算過程可以統一表示為：

$\begin{align} e_{ij} & = \mathcal{A}(\mathbf{s}_i, \mathbf{h}_j, \alpha_{i -1}) \\ \alpha_i &= \text{softmax}(e_i) \end{align}$

$e_{ij}$

稱為scaler energy，不同的attention其計算過程不同。下面介紹幾種常見的attention型別：

MLP attention［9］。

用一個多層感知機（線性網路）表示A的計算過程稱為MLP attention，ASR中最早被Cho等人在其研究中使用，輸入為向量

$\mathbf{s}_i$

和

$\mathbf{h}_j$

的拼接。

Tanh attention［10］。

Tanh attention又稱為content-based attention，最早在機器翻譯中使用，Cho等人在2015年提出的ARSG（Attention-based Recurrent Sequence Generator）中借鑑了這種計算方式，提出一種location-aware的計算方法，考慮了上一步生成的attention權值資訊

$\alpha_{i - 1}$

，計算表示如下：

$e_{ij} = w^\top \tanh(\phi(\mathbf{s}_i) + \psi(\mathbf{h}_j) + \theta(\mathbf{f}_{ij}))$

其中w為權值向量，ϕ（⋅），ψ（⋅），θ（⋅）均為MLP網路。fi為一個矩陣，用αi−1和矩陣F卷積得到：

$\mathbf{f}_i = \mathbf{F} * \alpha_{i - 1}$

3。 Dot attention［5］。

Dot attention是Google Brain團隊在LAS（Listen Attend and Spell）結構中使用的計算方法，透過兩個MLP網路ϕ（⋅），ψ（⋅）將si和hjembedding成等長向量，二者做點積：

$e_{ij} = \langle \phi(\mathbf{s}_i), \psi(\mathbf{h}_j) \rangle$

實驗表明，在Google voice search traffic任務上，dot-attention的表現比tanh-attention要好。

4。 Multi-Head attention［30］。

前面的幾種attention計算的共同點在於用h的加權平均作為attention context，這種方式稱為single-head attention，scaler energy依賴單一的si。multi-head attention（MHA）的機制是Google Brain團隊在2017年提出的概念，首先被應用於機器翻譯（NMT）。它將si做投影變換，產生M個embedding，基於此計算出M個scaler energy，彼此之間分佈不同，最後將各自的attention context拼接成最終的context向量。這種方式有助於減少context對encoder資訊的依賴，同時由於每支head可以從h中提取不同的資訊，系統魯棒性更強。藉助上面的符號定義，其計算過程可以表示為：

$\begin{align} \mathbf{c}_i &= \mathcal{A}(\mathbf{W}_i \mathbf{s}_i, \mathbf{h}) \\ \mathbf{c} &=\text{concat}(\mathbf{c}_{1 \cdots M}) \mathbf{W}_o \end{align}$

其中Wi表示變換矩陣，Wo用於減少向量拼接之後的維度。

Attention機制在機器翻譯中取得成功之後，被引入語音識別，處理聲學特徵到抄本之間的序列建模。從2015年開始，Attention based方法逐漸成為研究熱點。

Attention based Models

2014年，attention機制在TIMIT上最早的嘗試取得了18。61%的PER［9］。隨後，Cho等人提出了ARSG（Attention-based Recurrent Sequence Generator）［10］，採用location-aware的attention替換早期的MLP-attention，在TIMIT資料集上獲得了17。6%的PER（Phone Error Rate），這一結果已經超越了2013年RNN Transducer的17。7%［15］。

谷歌同年提出的LAS（Listen Attend and Spell）［5］整體與ARSG類似，不過更加結構化。LAS中encoder稱為Listener，decoder稱為AttendAndSpeller。Listener是一個金字塔結構的BLSTM-encoder，這種形式可以有效減少表示特徵的輸出步長，加速網路收斂。Speller是一個兩層的LSTM，與ARSG不同的是，attention context採用dot attention計算。LAS的評估在Google voice search任務上進行，和傳統方法最好的結果（CLDNN 8。0%）相比，配合語言模型重打分（LM rescore），取得10。3%的WER。

Baidu的Deep Speech 3沒有單獨的進行模型設計［4］，而是從資料，編碼器結構，解碼配置等方面詳細對比了CTC，RNN Transducer和 Attention based方法。在不借助語言模型輔助的條件下，在switchboard資料集上分別取得9。0%，8。5%和8。6%的WER，在更加真實的DeepSpeech資料上，三者的最優表現則較為一致

Attention vs CTC

相比CTC，attention機制更希望attention layer自身學習到對齊資訊，用於輔助decoder進行序列預測。訓練時的損失度量依舊是傳統聲學建模的交叉熵，因此，相比CTC具有簡潔性。這種方法稱為軟對齊（soft-alignment）。α表示網路學習到的對齊資訊，網路收斂之後，其分佈往往比較尖銳。

而CTC則是透過顯示的計算對齊資訊，用於損失函式設計實現端到端的訓練，計算複雜度較高。做推斷時，輸出序列的時序長度和輸入一致，而E-D框架中，decoder的輸出則沒有這一限制，理論上可能是任意長度。對於RNN Transducer，轉錄網路和預測網路之間僅僅透過輸出層做資訊耦合（做硬對齊的損失計算），而網路之間的狀態資訊也沒有互動，在這點上沒有E-D框架耦合性高。

解碼方面，由於CTC的輸出分佈呈現尖峰特性，大部分時長被blank符號填充，因此，雖然沒有在學習過程中學習語言建模，但是也可以採用greedy/beam search的方法進行解碼。如果採用細粒度的建模方法，比如CI-phone，也可以使用聲學解碼器進行解碼。

CTC相比attention更易於實現online解碼，只需要將聲學模型替換為單向RNN（LSTM \& GRU etc。）。而E-D框架中，由於encoder需要掃描一遍輸入序列，因此，實時性較差。關於如何進行online的改進，陸續有學者提出了自己的方案進行相關改進。下一部分會介紹其中一種思路。

Online Attention

上面提到的attention也常常被稱為full-sequence attention，因為在計算scaler energy時需要利用到整個表示特徵

$\mathbf{h}_{1\cdots U}$

。由此帶來的問題是，decoder需要等待encoder完成全部編碼表示才能工作，也就意味著decoder無法線上/流式工作，這極大的限制了其在語音互動中的應用。因此，如何進行線上的改善attention模型成為拓展其應用場景必須解決的問題。

Google Brain在2016年提出的Netural Transducer（NT）［18］將attention計算的context限制在事先劃分的語音段中，假設段長W，則T幀的資料可以劃分為

$B = [\frac{T}{W}]$

段。在每個塊中，NT產生k個輸出符號，並且強制最後一個符號為e，表示該語音段中已經產生完所有輸出。根據以上定義，第b段語音對應的輸出序列

$y_{e_b -1 \cdots e_b}$

產生的條件機率為：

$P(y_{e_b - 1 \cdots e_b} | \mathbf{x}_{1 \cdots bW}) = \prod_{i = e_{b - 1} + 1}^{e_b} P(y_m | \mathbf{x}_{1 \cdots bW}, y_{1 \cdots (i-1)})$

其中

$\mathbf{x}_{1 \cdots bW}$

和

$y_{1 \cdots (i-1)}$

分別表示已經觀測到的特徵和NT的當前輸出序列。而scale energy和attention context的計算僅僅只在當前語音段的表示特徵

$\mathbf{h}_{(b-1)W \cdots bW}$

上進行，即

$\mathbf{c}_i = \sum_{j = 1}^W \alpha{ij} \mathbf{h}{(b - 1)W + j}$

，其中：

$\alpha_i = \mathcal{A}(\mathbf{s}_i, \mathbf{h}_{(b - 1)W + j})$

關於attend的具體實現，論文中提出了三種思路，除了LAS中的dot attention之外，還有MLP attention和LSTM attention，即用一個多層感知機或者LSTM網路來計算scale energy。透過調節W的值，可以發現LSTM attention的結果更加連貫，配合一個三層的BLSTM-encoder，在TIMIT上可以取得18。2%的PER，和full-sequence attention 17。6%相比，這個結果是可觀的。後來文獻中常將NT實現online的方法稱為limited-sequence attention。

在ARSG中，作者也分析了full-sequence attention容易受到注意力丟失問題的影響，在長句子上的表現普遍不佳。NT中劃分語音段的方式幫助模型中的attention前向移動，因此，對此問題的敏感有所降低。但是在更加複雜的任務上，比如Google的voice search，流式/線上的Netural Transducer的表現不如離線的LAS，因此，Google的speech team將NT的思路應用於LAS中，並在原先LAS的設計上做了一些最佳化工作［7］［25］，主要包括如下幾點：

向前拓展注意力計算的context，即回顧若干（k）個語音段，同時向後拓展5幀，即將

$\mathbf{h}_{(b-1)W + 1, \cdots, bW}$

由

$\text{Listen}(\mathbf{x}_{(b-1)W + 1, \cdots, bW})$

修正為

$\text{Listen}(\mathbf{x}_{(b-k)W + 1, \cdots, bW + 5})$

，透過引入少量的延時，重複利用之前的歷史資訊增強了attention資訊含量。

使用原先的LAS模型引數初始化LAS-NT。

參照機器翻譯中的相關經驗，使用字片替代原來的字建模，同時在解碼過程中融合一個語言模型。

實驗結果表明，在Google voice search traffic任務，1，2的改進可以使得single-head NT獲得和single-head LAS相媲美的結果（9。9% vs 9。8%），結合3，multi-head NT取得了和multi-head LAS相同的結果（8。6%）。到此，attention具有了在實際場景中部署的基礎。

另外一種online改進的思路則是借鑑CTC中hard-alignment的思路，假設網路的對齊是單調的，即注意力沿著時間軸轉移，以Google Brain Raffel［6］［24］等人為代表。目前實際的表現尚不如NT-LAS，Google團隊正在進行相關調優工作。

Conclusion

本文從2006年被提出的CTC準則出發，依次介紹了RNN Transducer，encoder-decoder框架三種用於端到端聲學建模的方法，同時梳理了三者之間的關係及區別，並參閱了近四年來的相關文獻，展示了Google，Baidu等語音團隊在端到端方向上的實踐思路。事實上，關於E2E的實踐還遠不止本文所述，比如結合attention的LF-MMI［21］，基於VDNN（Very Deep Neural Network）［31］的建模實踐，基於CTC準則的encoder-decoder框架［28］，結合RNN Transducer的attention機制［23］，CTC attention的聯合訓練以及CE-CTC的聯合訓練［19］等等。整體來說，端到端是語音領域近兩年比較火熱的一個方向，由於在真實複雜的場景（噪聲，混響，多說話人等等）下，其實際的聲學魯棒性尚不能媲美傳統方案，因此還有很多難關等待被攻克。

Reference

［1］ O。 Abdel-Hamid， A。-r。 Mohamed， H。 Jiang， and G。 Penn。 Applying convolutional neural networks concepts to hybrid nn-hmm model for speech recognition。 In Acoustics， Speech and Signal Processing （ICASSP）， 2012 IEEE International Conference on， pages 4277–4280。 IEEE， 2012。

［2］ D。 Amodei， S。 Ananthanarayanan， R。 Anubhai， J。 Bai， E。 Battenberg， C。 Case， J。 Casper， B。 Catanzaro， Q。 Cheng， G。 Chen， et al。 Deep speech 2： End-to-end speech recognition in english and mandarin。 In International Conference on Machine Learning， pages 173–182， 2016。

［3］ D。 Bahdanau， K。 Cho， and Y。 Bengio。 Neural machine translation by jointly learning to align and translate。 arXiv preprint arXiv：1409。0473， 2014。

［4］ E。 Battenberg， J。 Chen， R。 Child， A。 Coates， Y。 Gaur， Y。 Li， H。 Liu， S。 Satheesh， D。 Seetapun， A。 Sriram， et al。 Exploring neural transducers for end-to-end speech recognition。 arXiv preprint arXiv：1707。07413， 2017。

［5］ W。 Chan， N。 Jaitly， Q。 V。 Le， and O。 Vinyals。 Listen， attend and spell。 arxiv preprint。 arXiv preprint arXiv：1508。01211， 1（2）：3， 2015。

［6］ C。-C。 Chiu and C。 Raffel。 Monotonic chunkwise attention。 arXiv preprint arXiv：1712。05382， 2017。

［7］ C。-C。 Chiu， T。 N。 Sainath， Y。 Wu， R。 Prabhavalkar， P。 Nguyen， Z。 Chen， A。 Kannan， R。 J。 Weiss， K。 Rao， K。 Gonina， et al。 State-of-the-art speech recognition with sequence-to-sequence models。 arXiv preprint arXiv：1712。01769， 2017。

［8］ K。 Cho， B。 Van Merriënboer， C。 Gulcehre， D。 Bahdanau， F。 Bougares， H。 Schwenk， and Y。 Bengio。 Learning phrase representations using rnn encoder- decoder for statistical machine translation。 arXiv preprint arXiv：1406。1078， 2014。

［9］ J。 Chorowski， D。 Bahdanau， K。 Cho， and Y。 Bengio。 End-to-end continuous speech recognition using attention-based recurrent nn： First results。 arXiv preprint arXiv：1412。1602， 2014。

［10］ J。 K。 Chorowski， D。 Bahdanau， D。 Serdyuk， K。 Cho， and Y。 Bengio。 Attention-based models for speech recognition。 In Advances in neural information processing systems， pages 577–585， 2015。

［11］ R。 Collobert， C。 Puhrsch， and G。 Synnaeve。 Wav2letter： an end-to-end convnet-based speech recognition system。 CoRR， abs/1609。03193， 2016。

［12］ A。 Graves。 Sequence transduction with recurrent neural networks。 Computer Science， 58（3）：235–242， 2012。

［13］ A。 Graves and F。 Gomez。 Connectionist temporal classification：labelling unsegmented sequence data with recurrent neural networks。 In International Conference on Machine Learning， pages 369–376， 2006。

［14］ A。 Graves and N。 Jaitly。 Towards end-to-end speech recognition with recurrent neural networks。 In International Conference on Machine Learning， pages 1764–1772， 2014。

［15］ A。 Graves， A。-r。 Mohamed， and G。 Hinton。 Speech recognition with deep recurrent neural networks。 In Acoustics， speech and signal processing （icassp）， 2013 ieee international conference on， pages 6645–6649。 IEEE， 2013。

［16］ A。 Hannun， C。 Case， J。 Casper， B。 Catanzaro， G。 Diamos， E。 Elsen， R。 Prenger， S。 Satheesh， S。 Sengupta， A。 Coates， et al。 Deep speech： Scaling up end-to-end speech recognition。 arXiv preprint arXiv：1412。5567， 2014。

［17］ S。 Ioffe and C。 Szegedy。 Batch normalization： Accelerating deep network training by reducing internal covariate shift。 In International conference on machine learning， pages 448–456， 2015。

［18］ N。 Jaitly， Q。 V。 Le， O。 Vinyals， I。 Sutskever， D。 Sus- sillo， and S。 Bengio。 An online sequence-to-sequence model using partial conditioning。 In Advances in Neural Information Processing Systems， pages 5067–5075， 2016。

［19］ S。 Kim， T。 Hori， and S。 Watanabe。 Joint ctc-attention based end-to-end speech recognition using multi-task learning。 In Acoustics， Speech and Signal Processing （ICASSP）， 2017 IEEE International Conference on， pages 4835–4839。 IEEE， 2017。

［20］ Y。 Miao， M。 Gowayyed， and F。 Metze。 Eesen： End-to-end speech recognition using deep rnn models and wfst-based decoding。 In Automatic Speech Recognition and Understanding （ASRU）， 2015 IEEE Work- shop on， pages 167–174。 IEEE， 2015。

［21］ D。 Povey， H。 Hadian， P。 Ghahremani， K。 Li， and S。 Khudanpur。 A time-restricted self-attention layer for asr。

［22］ D。 Povey， V。 Peddinti， D。 Galvez， P。 Ghahremani， V。 Manohar， X。 Na， Y。 Wang， and S。 Khudanpur。 Purely sequence-trained neural networks for asr based on lattice-free mmi。 In Interspeech， pages 2751–2755， 2016。

［23］ R。 Prabhavalkar， K。 Rao， T。 N。 Sainath， B。 Li， L。 Johnson， and N。 Jaitly。 A comparison of sequence-to-sequence models for speech recognition。 In Proc。 Interspeech， pages 939–943， 2017。

［24］ C。 Raffel， T。 Luong， P。 J。 Liu， R。 J。 Weiss， and D。 Eck。 Online and linear-time attention by enforcing monotonic alignments。 arXiv preprint arXiv：1704。00784， 2017。

［25］ T。 N。 Sainath， C。-C。 Chiu， R。 Prabhavalkar， A。 Kan- nan， Y。 Wu， P。 Nguyen， and Z。 Chen。 Improving the performance of online neural transducer models。 arXiv preprint arXiv：1712。01807， 2017。

［26］ T。 N。 Sainath， A。-r。 Mohamed， B。 Kingsbury， and B。 Ramabhadran。 Deep convolutional neural networks for lvcsr。 In Acoustics， speech and signal process- ing （ICASSP）， 2013 IEEE international conference on， pages 8614–8618。 IEEE， 2013。

［27］ H。 Sak， A。 Senior， K。 Rao， and F。 Beaufays。 Fast and accurate recurrent neural network acoustic models for speech recognition。 arXiv preprint arXiv：1507。06947， 2015。

［28］ H。 Sak， M。 Shannon， K。 Rao， and F。 Beaufays。 Recurrent neural aligner： An encoder-decoder neural net- work model for sequence to sequence mapping。 In Proc。 of Interspeech， 2017。

［29］ H。 Soltau， H。 Liao， and H。 Sak。 Neural speech recognizer： Acoustic-to-word lstm model for large vocabulary speech recognition。 arXiv preprint arXiv：1610。09975， 2016。

［30］ A。 Vaswani， N。 Shazeer， N。 Parmar， J。 Uszkoreit， L。 Jones， A。 N。 Gomez。 Kaiser， and I。 Polosukhin。 Attention is all you need。 In Advances in Neural Information Processing Systems， pages 6000–6010， 2017。

［31］ Y。 Zhang， W。 Chan， and N。 Jaitly。 Very deep convolutional networks for end-to-end speech recognition。 In Acoustics， Speech and Signal Processing （ICASSP）， 2017 IEEE International Conference on， pages 4845– 4849。 IEEE， 2017。

［32］ Y。 Zhang， M。 Pezeshki， P。 Brakel， S。 Zhang， C。 L。 Y。 Bengio， and A。 Courville。 Towards end-to-end speech recognition with deep convolutional neural networks。 arXiv preprint arXiv：1701。02720， 2017。

參考：Overview of E2E Methods

標簽： Attention CTC arxiv 建模序列

上一篇:上了稅務黑名單，對股東和監事影響？

下一篇：金剛鑽與璞玉——bort線+ref2

語音識別E2E小結

猜你喜歡

純注意力模型

如何在球面上做完全貼合的結構?

Seq2seq模型及注意力機制

陳小天：還用人工處理特徵？時間序列模型效果更強！

求問：從NCBI上比對下載CDS序列，設計引物，CDS序列是cDNA序列嗎？