NLP打怪升級路線圖：基礎概念、常用方法、最佳模型，知識點全覆蓋 | 萌新成長必備

作者：由量子位發表于收藏時間：2019-10-07

栗子發自凹非寺

量子位報道 | 公眾號 QbitAI

一隻萌新，想把自己修煉成一個成熟的

NLP

研究人員，要經過一條怎樣的路？

有個名叫Tae-Hwan Jung的韓國小夥伴，做了一份完整的

思維導圖

，從基礎概念開始，到NLP的常用方法和著名演算法，知識點全面覆蓋。

可以說，從0到1，你需要的都在這裡了：

這份精緻的資源剛剛上線，不到一天Reddit熱度就超過

400

，獲得了連篇的讚美和謝意：

“肥腸感謝。”“我需要的就是這個！”“哇，真好啊！”

所以，這套豐盛的思維導圖，都包含了哪些內容？

四大版塊

就算你從前什麼都不知道，也可以從第一個版塊開始入門：

1 機率&統計

從中間的灰色方塊，發散出5個方面：

基礎

（Basic），

取樣

（Sampling）、

資訊理論

（Information Theory）、

模型

（Model），以及

貝葉斯

（Bayesian）。

每個方面，都有許多知識點和方法，需要你去掌握。

畢竟，有了機率統計的基礎，才能昂首挺胸進入第二個板塊。

2 機器學習

這個版塊，一共有7個分支：

線性迴歸

（Linear Regression）、

邏輯迴歸

（Logistic Regression）、

正則化

（Regularization）、

非機率

（Non-Probabilistic）、

聚類

（Clustering）、

降維

（Dimensionality Reduction），以及

訓練

（Training）。

掌握了機器學習的基礎知識和常用方法，再正式向NLP進發。

3 文字挖掘

文字挖掘，是用來從文本里獲得高質量資訊的方法。

圖上有6個分支：

基本流程

（Basic Procedure）、

圖

（Graph）、

文件

（Document）、

詞嵌入

（Word Embedding）、

序列標註

（Sequential Labeling），以及

NLP基本假設

（NLP Basic Hypothesis）。

彙集了NLP路上的各種必備工具。

4 自然語言處理

裝備齊了，就該實踐了。這也是最後一張圖的中心思想：

雖然只有4個分支，但內容豐盛。

一是

基礎

（Basic），詳細梳理了NLP常用的幾類網路：迴圈模型、卷積模型和遞迴模型。

二是

語言模型

（Language Model），包含了

編碼器-解碼器模型

，以及

詞表徵到上下文表徵

（Word Representation to Contextual Representation）這兩部分。許多著名模型，比如

BERT

和

XLNet

，都是在這裡得到了充分拆解，也是你需要努力學習的內容。

三是

分散式表徵

（Distributed Representation），許多常用的詞嵌入方法都在這裡，包括

GloVe

和

Word2Vec

，它們會一個個變成你的好朋友。

四是

任務

（Task），機器翻譯、問答、閱讀理解、情緒分析……你已經是合格的NLP研究人員了，有什麼需求，就調教AI做些什麼吧。

看完腦圖，有人問了：是不是要把各種技術都實現一下？

韓國少年說：

不不，你不用把這些全實現一遍。找一些感覺有趣的，實現一波就好了。

△ 作者Tae-Hwan Jung，來自慶熙大學

One More Thing

Reddit樓下，許多小夥伴對這套腦圖表示膜拜，並且想知道是用什麼做的。

韓國少年說，

Balsamiq Mockups

。

GitHub傳送門：

Reddit傳送門：

—

完

—

量子位 · QbitAI

վ‘ᴗ’ ի 追蹤AI技術和產品新動態

戳右上角「+關注」獲取最新資訊↗↗

如果喜歡，請分享or點贊吧~比心❤

標簽： NLP Basic 模型 representation 版塊

上一篇:4G、Wifi、藍芽所謂的AT指令模式和資料透傳模式到底是什麼意思？

下一篇：太原鑄鐵管漏水維修洗臉盆下水管維修水管更換水龍頭軟管

NLP打怪升級路線圖：基礎概念、常用方法、最佳模型，知識點全覆蓋 | 萌新成長必備

猜你喜歡

博勝公考到底怎麼樣啊，有聽過課程的嗎？

錯過這5個GitHub專案和Reddit討論，你可能要後悔整年

南京周邊有哪些好玩的公園？

語言學研一在讀，想自學自然語言處理，這個想法靠譜嗎？

推薦7個適合自己偷偷成長的良心App