孫茂松教授——自然語言處理一瞥：知往鑑今瞻未來

作者：由一點人工一點智慧發表于文化時間：2022-03-04

人類語言（即自然語言）的重要性無論怎麼講都不為過。社會生物學之父愛德華·威爾遜曾說過：“語言是繼真核細胞之後最偉大的進化成就”。科普暢銷書《資訊簡史》的作者詹姆斯·格雷克也深刻地指出：“語言本身就是人類有史以來最大的技術發明”。這些斷言帶有科學哲學的意味，反映了現代人類對語言本質理解的不斷深化。

眾所周知，語言是人類所獨有的，是思維的載體，是人類交流思想、表達情感最自然、最深刻、最方便的工具。其中這幾個“最”字非同小可。語言之於人類就如同空氣之於生物，它時時刻刻、無聲無息地融通於我們生活的世界中；它是如此的自然以至於我們常常意識不到它的存在，但一旦沒有了它，人類將舉步維艱。很不幸，人類語言能力正是現代計算機系統所不具備的，呈現出整體性缺失。一個顯而易見的邏輯是，沒有語言能力的機器，不可能有真正的智慧。

自然語言具有無窮語義組合性、高度歧義性和持續進化性等，機器要實現完全意義上的自然語言理解，“難於上青天”。自然語言理解（一個退而求其次的提法——自然語言處理），因其兼具無與倫比的科學意義與學術挑戰度，吸引了一代代學者殫思竭慮、前赴後繼。

自然語言處理對世界人工智慧發展三個里程碑式的貢獻

“卻顧所來徑、蒼蒼橫翠微”。筆者認為，自然語言處理研究（包括文字處理和語音處理兩個相輔相成的方面）在世界人工智慧發展史上有三個里程碑式的“開風氣之先”貢獻。不揣孤陋寡聞，一孔之見，不一定對，拋磚引玉而已。

第一個里程碑式貢獻

現代意義的人工智慧技術研究發端於自然語言處理。對機器智慧的痴迷與摸索由來已久，1946年第一臺通用計算機ENIAC面世，無疑是一個歷史分水嶺。早在1947年，時任美國洛克菲勒基金會自然科學部主任的 Warren Weaver，在寫給控制論之父維納的一封信中就討論了利用數字計算機翻譯人類語言的可能性，1949年他釋出了著名的《翻譯》備忘錄，正式提出機器翻譯任務並設計了科學合理的發展路徑（其內容實際上涵蓋了理性主義和經驗主義兩大研究正規化）。1951 年以色列哲學家、語言學家及數學家Yehoshua Bar-Hillel在麻省理工學院便開始了機器翻譯研究。1954年Georgetown大學與IBM合作的機器翻譯實驗系統進行了公開演示。機器翻譯是典型的認知任務，顯然屬於人工智慧領域。

第二個里程碑式貢獻

自然語言處理在人工智慧領域乃至整個計算機科學與技術領域較早提出並系統性踐行了非結構化“大資料”理念，整體上實現了理性主義研究正規化向經驗主義研究正規化的嬗變。下面舉兩個典型工作。

一是連續語音識別。自上個世紀70年代中期開始，著名學者Frederick Jelinek領導的IBM研發小組即提出了基於語料庫n-gram語言模型（實際上就是n階馬爾科夫模型）的大詞表連續語音識別方法，使語音識別的效能上了一個大臺階。這個思路對語音識別領域產生了20年左右的深遠影響，甚至包括90年代推出的開創了機器翻譯新格局的IBM統計機器翻譯模型（該模型使機器翻譯研究迴歸到1949年Warren Weaver建議的經驗主義研究正規化下，充分展示了他的先見之明）。

二是詞性自動標註。1971年曾有學者精心設計過一個TAGGIT英語詞性標註系統，使用了3300條人工編制的上下文敏感規則，在100萬詞次的布朗語料庫上獲得了 77%的標註正確率。1983—1987年間英國蘭開斯特大學的一個研究小組另闢蹊徑，提出了不需要人工規則的資料驅動新方法，利用已帶有詞性標記的布朗語料庫，構造了基於隱馬爾科夫模型的CLAWS英語詞性標註系統，並對100萬詞次的LOB語料庫進行詞性自動標註，正確率一舉躍升到96%。

第三個里程碑式貢獻

當前這一波席捲全球的人工智慧高潮肇始於自然語言處理。2009—2010年間著名學者Geoffrey Hinton與微軟鄧力博士合作，率先提出了基於深層神經網路的語音識別方法，使得語音識別的效能突破了近10年的瓶頸制約，更上一層樓，令學界初步體會到了深度學習的威力，信心頓增，一掃對深度學習框架半信半疑之狀態，其後各研究領域遂從者如雲，爭先恐後如過江之鯽。2016年穀歌推出了深層神經網路機器翻譯系統GNMT，徹底終結了IBM統計機器翻譯模型，翻開了新篇章。

基於深度學習的自然語言處理：目前形成的基本態勢

自2010年以來，深度學習異軍突起，日新月異，強力推動了人工智慧的全面發展。10年發展的結果是，一方面，深度學習使人工智慧技術從幾乎完全“不可用”走向了“可用”，取得了歷史性的非凡進步；另一方面，雖然它使得人工智慧系統在幾乎所有經典任務上的效能表現均得以明顯提升，但受囿於深度學習方法所存在的深刻短板，在很多應用場景尚達不到“能用、管用、好用”。自然語言處理領域基本上也是這樣，本文不贅述。

宏觀上看，人工智慧領域的發展無例外地得益於兩大型別的方法利器：針對影象的卷積神經網路（CNN），以及針對自然語言文字的迴圈神經網路（RNN）。最初兩三年前者風頭尤勁，近些年後者貢獻更為卓著。若干影響深度學習全域性的主要思想，如注意力機制、自注意力機制、Transformer架構，均出自後者。

基於深度學習的自然語言處理，在短短10年中即完成了模型框架上的三次華麗迭代，“從山陰道上行，山川自相映發，使人應接不暇”，先後達至三重境界（實際上這也是深度學習的三重境界）。

第一重境界

針對每個不同的自然語言處理任務，獨立準備一套人工標註資料集，各自幾乎從零開始（常輔以word2vec 詞向量），訓練一個該任務專屬的神經網路模型。其特點我稱之為“白手起家 + 各家自掃門前雪”。

第二重境界

首先基於大規模生語料庫，自學習、無監督地訓練一個大規模預訓練語言模型（PLM），然後針對每個不同的自然語言處理任務（此時也稱作下游任務），獨立準備一套人工標註資料集，以PLM為共同支撐，訓練一個該下游任務專屬的輕量級全連線前饋神經網路。在這個過程中，PLM的引數會做適應性調整。其特點我稱之為“預訓練大模型+大小聯調”。

第三重境界

首先基於極大規模生語料庫，自學習、無監督地訓練一個極大規模的PLM；然後針對每個不同的自然語言處理下游任務，以PLM為共同支撐，透過少次學習（few-shot learning）或提示學習（prompt learning）等手段來完成該任務。在這個過程中，PLM的引數不做調整（實際上由於模型規模太過龐大，下游任務也無力調整）。其特點我稱之為“預訓練巨模型 + 一巨託眾小”。

這三重境界，一重比一重來得深刻；一重比一重有更多的“ 形而上” 感覺。在GLUE和SuperGLUE公開評測集上的效能表現，也是一重比一重要好（目前正處於第三重）。

近年來，在世界範圍內人工智慧界各路英豪圍繞預訓練語言模型展開了巔峰對決，模型規模急劇膨脹（如 2020年6月OpenAI推出的GPT-3模型引數規模達1750億個，2021年10月微軟和英偉達聯合推出的MT-NLG 模型飆升到了5300億個引數），你爭我奪，你爭我趕，好不熱鬧。2021年8月，斯坦福大學專門舉辦了兩天的學術研討會，將第三重境界中的“預訓練巨模型”命名為“基礎模型”（foundation model），並隨即發表了一篇數百頁的長文，全面闡述其觀點。文中繪製了一張示意圖（見圖1），揭示了“基礎模型”在智慧資訊處理的中樞作用（其作用疆域已擴充套件至全資料型別和多模態）。

圖 1 “基礎模型”在智慧資訊處理的中樞作用

對“基礎模型”也有很多質疑的聲音，如圖靈獎得主Judea Pearl就在推特上發問：“‘基礎模型’使得我們可以繞開以資料為中心的方法的理論侷限性的科學原理是什麼呢？”（What is the scientific principle by which‘Foundation models’can circumvent the theoretical limitations of data-centric methods as we know them…？）

但無論如何，“基礎模型”作為智慧資訊處理公共基礎“軟”設施的重要地位似已可以基本成立。第一重境界好比各家在海拔幾乎為零的沙灘上蓋房子，只能自家打好自家的地基，一磚一瓦自己蓋起來，很是辛苦，效率也就比較低；第二重境界則是搭建了一個海拔二三十米的共同檯面，各家都在這個檯面上蓋房子，自己打地基的工作大體可以省掉，效率大為提升，但由於檯面還不夠高，基礎不一定處處可靠，所以各家蓋房子時還要照顧到檯面情況，適當夯實、調整一下臺面；第三重境界把公共平臺建到了二三百米，地基很牢固，檯面高了，即使簡單搭個小涼亭，登高望遠風景也會不錯，各家蓋房子需要操心的因素自然就更少了許多，效率得以進一步提升。這是我對“基礎模型”定位的一種形象解釋。

我們不妨以引數規模達千億個的百度文心NLP大模型（

https：//

wenxin。baidu。com/wenxin

/ernie

）為例，初步體驗一下大模型。首先簡單考察其“自由創作”功能。隨意輸入如下一段話，讓機器續寫：

沿著曲徑一路走去，未見

機器續寫的句子相當精彩：

到一個人，只有幾株高大的銀杏樹和一些不知名的花朵在陽光下燦爛地開放，偶爾還能夠見到兩隻小鳥。

還是那句輸入，讓機器再續寫一段：

任何人煙，卻有一個小山村靜謐地佇立在那裡。這就是位於大興區榆垡鎮的後石塢鄉前石塢村，全村共300戶左右、800多口人。如今，農村已經成為許多家庭主要的生活來源之一了。現在我們不僅吃穿住都好，還能看到很多漂亮精彩的節目！

這段話雖然通順，但文字發展脈絡已經有些奇了。

再考察其“自由問答”功能。提問：

山東哪一座山最高？

機器回答：

泰山。

換個問法兒再問機器：

山東最高的山是哪座？

機器回答：

泰山！

考慮到這是生成式回答，機器能做到這一點相當不錯。但同樣的問題多問機器幾次，機器就“蒙圈”了，胡亂回答：

青島的嶗山。這個不用想

五蓮山，海拔1095米

濟南

可見大模型有比較廣博的知識能力，但博而不精，嚴重缺乏自知之明。所以很容易在語義邏輯上被“攻擊”或者“為難”。掉過頭來再考察一下其“自由創作”功能。輸入：

沿著人來人往的曲徑一路走去，未見

機器續寫：

一個行人，只有幾盞燈籠照著地上的影子。

輸入：

沿著人滿為患的曲徑一路走去，未見

機器續寫：

任何一個人，這裡是否有著另外的生命存在？沿途所見皆為枯死之樹和倒伏的草木。而他們卻不曾注意到身後那片綠意盎然的山谷！“好美啊 ~”她輕盈跳躍在空中，看向下方正在忙碌的眾人道了聲讚歎。聽聞此言時莫雲殤也停止了手上的活計轉頭望去，只見遠處的林間開滿了

由上述幾個例子可以看出，大模型有明顯的長處，但也存在明顯的短處。它就是一個有一定海拔高度的檯面，在上面可以比較便利地蓋房子，但它並不意味著房子已經蓋好。其實要在其上蓋起一座真正“能用、管用、好用”的房子，還是需要下大氣力的。

第三重境界帶來的困惑與思考：自然語言處理今後若干年的主要挑戰

我認為，自然語言處理在今後若干年主要面臨兩大挑戰。

第一個挑戰：力大者為王？

這是順著目前形成的基本態勢，也就是“基礎模型”自然向前延伸的。雖然這一路依然在高歌猛進，但“基礎模型”本身顯然不能解決深層次語義問題；換言之，它註定不能直接導致通用人工智慧（雖然它肯定會是設想中的通用人工智慧的一個基礎部件）。那麼，一個自然而然的問題就產生了：這種追求規模（資料、模型、算力）極致化的策略還能走多遠？連帶的另一個問題是，我們應該做些什麼？

我想可以從“基礎模型”的開發性（exploitation）和探索性（exploration）兩個角度予以回答。

開發性（exploitation）更多注重“基礎模型”的工程性，有如下幾點應予注意。

●目前構造及使用“基礎模型”的演算法本身還是偏粗放型的。前文給出的百度文心 NLP 大模型表現的一些“毛病”，可望透過積極改進演算法部分地予以解決。

●對少次學習、提示學習、基於介面卡的學習（adapter-based learning）等與“基礎模型”配套的新手段的研發工作應予加強。

●訓練資料包羅永珍一定就好嗎？是否應對大資料中明視訊記憶體在著的大量噪聲進行篩選？

●排行榜對模型研發無疑非常重要。但排行榜不是唯一的金標準，應用才是最終的金標準。

●研發“基礎模型”的企業不能“王婆賣瓜，自賣自誇”，要開放給學術界測試。不開放給學術界測試的“基礎模型”，其效能是存疑的。學術界不宜盲信盲從。

●“基礎模型”亟需找到殺手級應用，才能令人信服地證明自己的能力。

探索性（exploration）則更多注重“基礎模型”的科學性。鑑於“基礎模型”確實呈現出了一些令人驚奇（或者“奇怪”）的現象，目前尚未給出科學的解釋。典型如：

●為什麼大規模預訓練語言模型會出現deep double descent現象（這一點似乎超越了機器學習中“資料複雜度與模型複雜度應基本匹配”的金科玉律）？

●為什麼“基礎模型”具有少次學習甚至零次學習的能力？這些能力是怎麼獲得的？其中是否出現了複雜巨系統的湧現現象？

●為什麼提示學習能奏效？這是否暗示“基礎模型”內部可能自發地產生了若干功能分割槽，而一個個提示學習恰好提供了啟用一個個功能分割槽的鑰匙？

●如果是這樣，功能分割槽的分佈可能是怎樣的？由於“基礎模型”的核心訓練演算法極其簡單（語言模型或完形填空模型），這又隱含著什麼深意？

我個人認為，對“基礎模型”科學意義的探索也許大於其工程意義。如果其中確乎蘊涵著上述一二玄機，那麼這將對人工智慧模型的全新發展具有深刻的啟迪性，“基礎模型”也會出現“山重水複疑無路、柳暗花明又一村”的全新氣象。此外對腦科學、認知神經科學研究也可能富有啟發性。

第二個挑戰：智深者為上？

這是人工智慧的“初心”和永恆夢想，與第一個挑戰的思路相去甚遠，但其必要性毋庸置疑。這裡舉例說明。

前文提及的機器翻譯先行者Yehoshua Bar-Hillel，1960年發表了一篇長文《語言自動翻譯的現狀》，對機器翻譯的前景進行了展望。文中他舉了一個對人來說易如反掌，但對機器翻譯來說異常棘手的一個句子（注意其中的 The box was in the pen）：

Little John was looking for his toy box。 Finally he found it。 The box was in the pen。 John was very happy。

其中pen有兩個意思：“鋼筆”和“圍欄”。要正確地翻譯成“圍欄”，機器需要明白介詞in的意思，同時具備相關的世界知識。我們把這個簡單的英文句子，送給用深層神經網路和大資料武裝到牙齒的機器翻譯系統。

谷歌翻譯結果：

盒子在筆裡。

百度翻譯結果：

盒子在鋼筆裡。

60多年過去了，還是沒搞定。

可喜的是，在“力大者為王”波瀾壯闊、摧枯拉朽的大勢下，一批學者仍在堅持並積極倡導小資料、富知識、因果推理等“智深者為上”的下一代人工智慧發展理念。不過目前研究進展不大。這條道路上有兩個難以逾越的“攔路虎”。

一是形式化常識庫和世界知識庫依然嚴重缺乏。Wikidata之類的知識圖譜貌似規模龐大，但如果稍微審視一下就會發現，它所覆蓋的知識範圍仍然十分有限。事實上，Wikidata存在明顯的構成性缺失，多是關於實體的靜態屬性知識，關於動作、行為、狀態，以及事件邏輯關係的形式化描寫則幾乎沒有。這就使得它的作用域嚴重受限，實際效能大打折扣。

二是系統性獲取“動作、行為、狀態，以及事件邏輯關係”之類形式化知識的能力依然嚴重缺失。對開放式文字（如 Wikipedia 文字）進行大規模句法語義分析是必由之路。但很可惜，目前這個句法語義能力還不太具備（雖然近年來藉助深度學習方法，已經有了長足進步）。

這兩個“攔路虎”必須想辦法解決。否則，巧婦難為無米之炊，這條路不易走通。

上述兩大挑戰，其實也是整個人工智慧領域所必須面對的。

結束語

自然語言處理一路走來至今日，形成了“力大者為王”和“智深者為上”兩條道路。前者道路寬廣，順風而下，但貌似快走到盡頭；後者道路狹窄，逆風而上，但應該會悠長雋永。前看兩者可以並行不悖，互相借鑑，互為支援，如“基礎模型”可望有效提升大規模句法語義自動分析的能力，從而為大規模知識自動獲取提供前提條件。“基礎模型”可能包藏了某些深邃的計算機理或奧秘，或導致大的“峰迴路轉”，值得密切關注。未來 10 年，自然語言處理在研究和應用上整體上創造一個恢弘格局，並對人工智慧領域的發展做出關鍵性貢獻，是可以期待的。

標簽：模型自然語言人工智慧機器翻譯基礎

上一篇:公文寫作金句 | “一錢太守”與“四知太守”的典故該怎麼用?

下一篇：沒有做，明天再早也是耽誤了。這句話語雖然很短，但令我浮想聯翩。本人也是經過了深思熟慮，在每個日日夜夜思考這個問題。經過上述討論，一般來講，我們都必須務必慎重的考慮考