語音輸入法誰最準? 3 天做了 12 項對比,結果非常有趣!
今天我們來聊聊語音輸入法,其實語音輸入法已經不是新鮮玩意兒了,只不過前兩年被錘子的老羅在釋出會上引爆了一波,大家才意識到,原來語音輸入的實用程度早已今非昔比了。
手機平臺的語音輸入法也有很多家產品,那麼到底哪一家最好用呢?
好不好用的標準對每一個使用者可能都不一樣,但對於輸入法來說,有一點是繞不開的,那就是
識別準確率
。如果識別率不高,哪怕產品設計做的再棒,UI 逼格再高,都是捨本逐末然並卵。
所以,今天不談別的,我們就來看看到底哪款語音輸入法最準確,關注黑哥比較久的小夥伴們應該知道,之前我也寫過一篇關於 OCR 的對比評測《
到底哪款 OCR 軟體識別率最高?免費版居然表現最佳?
》今天也按之前的實驗框架來測試。
溫馨提示:本文較長,嫌長的可以直接拉到最後看結果,只不過你會錯過一個有趣的過程。
一、評測準備
本次選中的是百度輸入法、訊飛輸入法、搜狗輸入法、微信自帶的語音輸入,前三家屬於主流輸入法,之所以在評測中加上微信的語音輸入功能,是因為這個使用者量也非常巨大,所以一起進行測試。
1. 參評軟體版本號:
百度輸入法: iOS 版 8。0 版本
訊飛輸入法: iOS 版 8。0。2058 版本
搜狗輸入法: iOS 版 5。3。5 版本
微信語音輸入:微信 iOS 版 6。7。0 版本
2. 校對軟體:Word 2016 + 人工統計
簡單介紹一下校對過程,在 Word 2016 裡面開啟審閱標籤,選中對比,即可對原文字與目標文字進行對比。中間為校對區,右上為軟體識別文字,右下為原稿。
實際過程中發現由於 Word 對比出來的修訂數是以詞語或句子為單位的,不能做到十分精確,如圖所示,當連續的整句或一個片語識別錯誤時,它只統計為 1 處錯誤,所以只看修訂數並不準確。
在嘗試了大量校對統計工具後,始終沒有辦法找到以字元為單位的對比工具,無奈之下,為了確保實驗結果準確,所以黑哥只有以單個字元、標點為單位,一個一個自己數出來的。
這項工作,就花了一天時間,所以
趁手的工具對需要的人來說,真的很重要,如果大家有好的工具一定推薦給我
!本次評測最終的資料以手動統計為準, Word 對比統計的修訂數僅做參考。
3. 實驗設計
在實驗中,為了確保原始音訊檔案一致,輸入的語音都是提前錄好同一段語音素材,然後在同一個手機上使用不用輸入法進行實驗,儘可能降低誤差率。
但實際過程中,由於語音輸入目前均採用雲端識別,影響準確率的因素較多,
即使在確保所有外在條件都一致的情況下,多次測試仍會得出不同的識別結果。
從統計學意義上說,為了降低誤差,保證測試結果的穩定性,應該多次測試然後取平均值在參與對比,但受限於精力時間,我們只以單次為準,並且只測試雲識別,不測試離線環境,有興趣的小夥伴可以參考我這個實驗模型,自己測試一下。
同時,在實驗測試結果中,對錯誤特徵進行分類,如文字字元錯誤、標點錯誤、數字錯誤、英文單詞大小寫錯誤等等。
之所以進行分類,是為了更加準確地體現出識別的準確率。如果文字錯誤、單詞錯誤屬於識別錯誤,影響閱讀與理解,這些
字元錯誤的係數定為 1
。
如果是標點符號這類錯誤,不影響閱讀與理解,但仍需要後期校對修改,這些
標點錯誤的係數定為 0.5
。
如果是英文大小寫錯誤和未空格錯誤等其他錯誤,屬於識別正確拼寫錯誤的範疇,所以把這些統一歸為其他錯誤,
其他係數定為 0.2
。
最終準確率的計算方法:
(總字元數 - 錯誤數 × 對應係數)/ 總字元數
。
二、普通話極致水平下測試
首先,我的思路是想測試一下語音輸入法在識別時能夠達到的上限,也就是儘可能降低誤差,儘可能達到理想化實驗環境,那麼就要求普通話必須最標準。
在這個星球上,普通話說得最標準的是誰呢?我覺得除了新聞聯播的播音員沒有別人了吧?
所以第一項測試我們就以新聞聯播的口播新聞語音為測試樣本。
選取的是 7 月 12 日《北約峰會期間美歐再起爭執》這條新聞,文字共 441 個字元。
測試結果:
1。 百度輸入法
2。 訊飛輸入法
3。 搜狗輸入法
4。 微信語音輸入
將資料錄入表格後,綜合結果如下:
結果分析:
在該項對比中,字元出錯最少的居然是微信輸入,有些出乎意料,包括語音輸入法常見的諧音錯誤、丟字錯誤等方面,微信語音輸入都控制得比較好;
標點錯誤也是常見錯誤,該環節搜狗表現最佳,僅有 15 處錯誤,應該是得益於搜狗在智慧輸入法領域,特別是對上下文語義分析的多年積澱;
在數字規範拼寫等其他錯誤方面,搜狗同樣犯錯最少,僅有 1 處出錯,(原文:8,識別稿:八)。除此之外,對於日期、百分比等這些數字的規範書寫都非常準確。
其他 3 家均有不同程度的犯錯,特別是微信輸入,竟錯有 11 處之多。
這些錯誤都非常可惜,都是屬於識別正確但拼寫錯誤的,如果微信輸入在數字規範書寫環節注意改進的話,是很容易提升準確率的。
在普通話極致水平測試中,準確率排列:
搜狗輸入法 > 微信輸入 > 訊飛輸入法 > 百度輸入法
三、普通話一般水平下測試
第二項測試,我選取了一段《人民的名義》臺詞口播錄音進行測試,因為這些臺詞比較口語化,更貼近日常的使用場景,黑哥的普通話二級甲等,不算好也不算差,算箇中游水平吧。
測試結果:
1。 百度輸入法
2。 訊飛輸入法
3。 搜狗輸入法
4。 微信語音輸入
綜合結果如下:
結果分析:
出乎意料的是,在第一項測試中字元錯誤表現最好的微信語音輸入和訊飛在該項表現不佳,出錯次數最多,出現了大量丟字錯誤,反觀百度和搜狗則在多處後兩者未能識別的情況下正確識別,逆襲成功。
標點符號方面,百度依然表現不佳,訊飛在該環節表現最好,搜狗和微信表現接近。
至於數字拼寫等其他方面,由於樣本中數字較少,所以未能體現出各家之間的區別。
在普通話一般水平識別中,準確率排列:
搜狗輸入法 > 百度輸入法 > 訊飛輸入法
> 微信輸入
四、中英文混合輸入
中英文混合輸入雖然在日常使用中適用的場景較少,但如果語音輸入法要革掉鍵盤錄入的命的話,這就是個繞不過去的檻,像黑哥這樣的科技號在日常寫作中會大量夾雜英文單詞,所以也把這個加入到本次評測中,同時也是對語音輸入法在複雜錄入環境中的一次極限測試。
選用的中英文輸入文字節選自蘋果官網的一篇新聞報道:
FaceTime 通話功能改變了我們溝通和分享重大時刻的方式。現在,有了 Group FaceTime 通話功能,多人同時聊天變得既簡單又輕鬆。 你可隨時新增參與者,如果對話還在繼續,可選擇稍後加入,並可選擇透過 iPhone、iPad 或 Mac 使用影片或音訊加入聊天,甚至可透過 Apple Watch 使用 FaceTime 通話的音訊功能加入其中。
測試結果:
1。 百度輸入法
2。 訊飛輸入法
3。 搜狗輸入法
4。 微信輸入
綜合結果如下:
結果分析:
在該項測試中,訊飛和微信輸入遠遠將百度和搜狗落在了身後,字元基本上都能夠識別正確,只不過在大小寫輸入方面還存在部分問題,訊飛將英文單詞之間都留有空格,帶來的問題則是部分專屬名字加了多餘的空格,如 FaceTime 錯誤寫成 face time。
而微信輸入則是另一個極端,所有的英文單詞之間都沒有留有空格,但這兩者的英文單詞識別率輕鬆碾壓前兩者。
百度的表現其實也算不錯,錯誤特徵和微信輸入較為接近,同樣沒有在單詞之間預留空格,識別率稍遜於微信和訊飛。
必須要說的是搜狗,很奇怪我連續三次識別都沒能完整錄入整段文字,每次在最後一句就卡住,停止錄入,只能以這個結果進行對比,實際上搜狗對已錄入的英文識別率幾乎為 0。
標點錯誤數方面,四種輸入法基本相當,沒有明顯差距。
在中英文場景中,準確率排列:
訊飛輸入法 > 微信輸入 > 百度輸入法 > 搜狗輸入法
。
五、綜合對比
綜合統計結果,將 3 項測試結果的準確率相加求平均值,最終統計結果如下:
最終的準確率排序為,
訊飛輸入法 > 微信輸入 > 百度輸入法 > 搜狗輸入法
評判語音輸入法的方法其實標準並不統一,本次評測設計了一種近乎嚴苛的方法來進行實測對比,但不論怎麼對比,最終都是圍繞著一個終極標準,那就是:
在後期編輯校對時,需要修改調整最少的則為贏家
。
這也就是本次評測對標點、空格等因素也考慮進來,畢竟這些都是需要人工進行修正的。
由於條件精力有限,雖然評測設計充分考慮控制誤差,但受客觀條件的制約,並不意味著評測絕對科學,一定存在著設計不完善之處,包括主觀方面係數的比重是否合適。
也歡迎感興趣的小夥伴可以聯絡我,一起做這方面的測試,我真的需要有人來幫我。
但本次測試還是能夠給大家帶來一些參考價值,至少目前,我還沒有在網上搜索到這些
輸入法錯誤特徵的細節分析
,我想,這就是這篇我花了 3 天時間,用寫論文的態度來完成這次評測的價值所在。
六、結語
我知道這篇已經嚴重超長了,索性再囉嗦兩句,誠如上文所提,做這些的測試很可能又是一個吃力不討好的事,比如太長不看系列。
黑哥一向只想推薦最好的工具給大家,但是怎麼判斷好用不好用,總得有依據對吧,空口白牙,口說無憑。不怕不識貨,就怕貨比貨,拋開對比來說誰更好用,都是耍流氓,所以這就是我寫這篇評測的初心。
有時候我也在思考,需要這麼認真嗎?真的有意義嗎?
但最終的答案是:
我就是熱愛,我就是認真
。
本文在
網羅燈下黑
知乎專欄及同名微信公眾號(
wldxh8
)同步更新,覺得自己不是個正常人,想玩點和別人不一樣的軟體,來這裡就對了!