語音合成基礎(2)——聽覺系統和ASR
本文未經允許,禁止轉載,謝謝合作。
在上一篇文章中,我介紹了語音以及TTS相關的基礎概念。在這一篇文章中,我將介紹人的聽覺系統和語音識別的基礎概念。
語音識別也被稱為ASR,是TTS的逆任務,也就是說,在ASR中,系統的輸入是語音,輸出是文字,我們瞭解聽覺系統和ASR的目的在於透過這個逆任務來加深對於語音本身和TTS的理解。因此本文
更偏重於對聽覺系統的介紹,而只會簡單介紹ASR,因此並不是ASR的教程文章。
1。 人的聽覺系統
人是怎麼聽到聲音的呢?我們已經知道聲音就是波,但我們的大腦處理的都是神經訊號,因此這中間必然要經過一系列的訊號轉換,在這一過程中耳朵起到了關鍵性的作用,這一節我會向大家詳細介紹耳朵處理聲波的過程。
耳朵
耳朵可以被分成三個部分,外耳(outer ear)、中耳(middle ear)、內耳(inner ear),如下圖所示:
下面我將依次介紹這三個部分。
1。1 外耳
外耳承擔了接收和傳送聲波的工作。
耳廓(pinna)
是耳朵暴露在外界的部分,它的結構產生了兩個作用,內凹的結構讓聲波聚集到耳道中,不對稱的結構讓人們能夠區分聲音的來源,我們都知道區分左右的聲音靠的是聲音到達左右耳的時間差,但是前後或者上下的聲音則不同,這時候我們依靠的就是耳廓的不對稱結構。
耳道(ear canal)
連線耳朵和外部的通道,就相當於用來接收聲音的麥克風。
1。2 中耳
中耳中最重要的東西就是鼓膜,鼓膜同時也是外耳和中耳的分界點。
鼓膜(ear drum, tympanic membrane)
在耳道末端,接收聲波產生振動
氣腔(air-filled chamber)
鼓膜內測的充滿空氣的小室,裡面包含了人體內部最小的三個骨頭——聽小骨。
聽小骨(ossicles)
三個骨頭的總稱,他們分別是錘骨(malleus)、砧骨(incus)和鐙骨(stapes),聽小骨的作用是幫助鼓膜的振動傳輸到內耳,因為在傳輸過程中會有impedance mismatch產生,所以本質上聽小骨提供了impedance matching的功能。
鐙骨肌(stapedius muscle)和鼓膜張肌(tensor tympani muscle)
這兩個在中耳的肌肉保護我們的耳朵不被太大的聲音所傷害。
卵圓窗(oval window)
也叫前庭窗,和鐙骨相連,用於將聲波傳送到內耳。所謂卵圓窗就是一個可活動的膜,用來分離充滿空氣的氣腔和充滿液體的內耳。
蝸窗(round window)
也叫圓窗,是另外一個可活動的膜,在聲波的刺激下使得內耳的液體產生平滑的位移。和卵圓窗由類似的作用。
簡而言之,聲波傳到鼓膜,鼓膜振動產生新的波,這個波透過氣腔中的聽小骨傳播到內耳。
1。3 內耳
內耳將聲波轉化為神經訊號,其中最重要的器官就是耳蝸和基膜。
耳蝸(cochlea)
一種螺旋狀結構,充滿了液體。最終被corti所分割。
柯蒂氏器(Organ of Corti)
是將聲波轉換為神經訊號的最主要器官。
基膜(basilar membrane)
位於Corti內部的膜,當音波透過耳蝸傳過來時會振動,不同頻率的聲波會造成基膜的不同位置振動
內淋巴液(endolymph)
耳蝸內部液體名稱
聽毛細胞(Hair cell)
Corti中的特殊聽覺感知細胞,基膜的振動會造成聽毛細胞的去極化(depolarization),聽毛細胞會釋放神經遞質到有聽覺神經纖維的突觸,它會產生動作電位,最終聲波就被轉換為了神經訊號,之後傳送到大腦來處理。
2。 ASR
我們已經說明了ASR的定義,接下來將會簡要介紹ASR的歷史、難點和現代處理方法。
2。1 ASR的歷史
1920s:單個單詞識別
1950s:孤立數字識別
1960s:孤立單詞識別
1970s:連續單詞識別
1980s:大量單詞識別(large vocabulary ASR, LVASR),很多說話人
1990s:惡劣條件下的語音識別
After 2000s:從HMM到DNN
總體上來說剛開始都是基於規則或者模板,之後才開始使用引數模型。
你可能已經注意到TTS和ASR的歷史其實是類似的,這兩個任務的聯絡是很深的。
2。2 ASR的難點
不同於TTS,ASR的難點基本集中在對語音的處理:
輸入不固定:誰都不可能每次說出波形一摸一樣的話
每個人的聲音不同
上下文不同
噪音
分詞,要從連續波形中分出單詞
多語言
歧義,如下圖所示:
2。3 傳統和現代處理方法
Statistical ASR
我們看到傳統的基於HMM的ASR和TTS的形式類似,都是pipeline模式,非常繁瑣。
DNN ASR
有了DNN之後,一切都變得簡單,不需要pipeline也不需要標註,直接從聲音到文字。
3。 總結
本文主要詳細介紹了人的聽覺系統,除此之外也簡要介紹了ASR相關的知識。我們能在ASR和TTS中看到很多相似的東西,瞭解聽覺系統和前一篇文章中的發聲系統能讓我們對人類和聲音相關的處理方式有更深的瞭解。對比ASR和TTS我們也能發現這兩個系統實際就是兩個複雜的濾波器,這也解釋了為什麼神經網路這麼適合處理這兩個任務。