如果未來要做機器學習,哪門統計學的課比較重要?
大四老狗答一波,我們三門課都學了,我覺得這三門課都重要。
貝葉斯的思想很重要的,也有直接產出的機器學習模型樸素貝葉斯。在實際生活中,頻率學派的那個建模idea其實不太realistic,貝葉斯學派的觀點可能更有實際價值。
多元統計也是重要的,會學kmeans、因子分析、主成分分析這三個常用的模型。
非引數統計的秩統計量的觀點也很精妙,但是似乎在機器學習上幫助不大。不過在幫我女朋友看論文時有幸讀到了幾篇經濟學論文,都有拿秩統計量做資料變換的預處理,或許可以用在機器學習中加速模型收斂。
這幾門課都挺有用,但是作為本科入門課,我建議學貝葉斯吧,多元統計本科一般主要教的都是正態假設下的結論,對ml幫助不大,非參本科估計主要講spline的gam,也對ml幫助不大。貝葉斯本科至少會講先驗後驗和mcmc,現在貝葉斯神經網路很火,是個不錯的方向。
選《多元統計》,因為多元統計會講多維正態分佈,向量導數,多元迴歸,邏輯斯蒂迴歸,因子分析(降維),判別分析(分類演算法)和聚類。學完了意味著你為後面的機器學習打下了堅實的基礎。
判別分析裡面會涉及到樸素貝葉斯,會講貝葉斯的原理。怎麼說呢?不學多元統計,直接過渡到機器學習,你會發現自己總有一點發虛,總感覺一些東西不清楚。
以前搞機器學習的基本都是統計出身,多元統計是必學內容。當然了貝葉斯也很重要,但是二選一的情況下我個人還是認為多元統計應該是在貝葉斯前面先學為好。
統計學的課就那幾門,建議以後能修都可以修一下。不過既然只能選一門,還是建議選《多元統計》比較好。
多元統計的內容和機器學習有較多重合,這是我之前看過的一本教材,你可以看看目錄
前幾個章節就會講多維正態分佈,向量導數,多元迴歸,logistic迴歸,至於後面講到的k-means,因子分析,Fisher判別分析等,分別對應了機器學習中的降維,聚類和分類演算法。學好多元統計,你的理論基礎會更堅實,機器學習的入門相對來說也會更加簡單,一舉兩得。
另外我之前寫過一個回答
圖靈的貓:機器學習該怎麼入門?
裡面剛好有講到機器學習裡必須的統計學(不是多元統計)知識點,你可以照著劃重點,學習多元統計之前最好複習一下:
機率論與資訊理論
機率論與資訊理論在機器學習中用得非常多。機率論的知識,一般不超出工科教材的範疇。而資訊理論是很多同學沒有學過的,不過只要你理解了微積分和機率論,理解這些概念並不是難事。下面列出常用的機率論與資訊理論知識點。
隨機事件與機率
:這是理解隨機變數的基礎,也是機率論中最基本的知識。
條件機率與獨立性
:條件機率非常重要,在機器學習中,只要有機率模型的地方,通常離不開它。獨立性在很多地方也被使用,如機率論圖模型。
條件獨立
:在機率論圖模型中廣泛使用,一定要理解它。
全機率公式
:基礎公式,地位不用多說。
貝葉斯公式
:在機器學習的機率型演算法中處於靈魂地位,幾乎所有生成模型都要用到它。
離散型隨機變數與連續型隨機變數
:重要性不用多說,機率質量函式,機率密度函式,分佈函式,一定要熟練掌握。
數學期望
:非常重要,好多地方都有它的影子。
方差與標準差
:非常重要,刻畫機率分佈的重要指標。
Jensen不等式
:在很多推導和證明中都要用它,如EM演算法,變分推斷。
常用機率分佈
:包括均勻分佈,正態分佈,伯努利分佈,二項分佈,多項分佈,t分佈等,在各種機器學習演算法中廣泛使用。
隨機向量
:多元的隨機變數,在實際中更有用。
協方差
:經常使用的一個概念,如主成分分析,多元正態分佈中。
引數估計:
包括最大似然估計,最大後驗機率估計,貝葉斯估計,核密度估計,一定要弄清楚它們是怎麼回事。
隨機演算法
:包括取樣演算法,遺傳演算法,蒙特卡洛演算法,在機器學習中也經常使用。
資訊理論中的一些概念,包括熵,交叉熵,KL散度,JS散度,互資訊,資訊增益,一定要深刻理解這些概念。如果你不理解KL散度,那怎麼理解變分推斷和VAE?
最後提醒一下,多元統計裡會有很多矩陣運算,建議你把矩陣論也提前看看
最後附上自己整理的入門書單和課程,裡面小藍書、花書一類的我沒放進去,因為我認為並不適合入門。這裡我列的課程和書目都是非常beginner-friendly,適合新手讀。其中有些書是幾年前我看過的,而有些書是19年才寫的,非常接近目前業界的深度學習應用,個人推薦看新書。(不知為何,新書的評分通常更高)
數學課程
麻省理工公開課:線性代數_全35集_網易公開課
可汗學院-線性代數入門
線性代數應該這樣學 (豆瓣),
高等微積分 - 臺大開放式課程 (NTU OpenCourseWare)。
機率論與數理統計 (豆瓣)
演算法課程
Coursera-機器學習-Andrew Ng
BiliBili-機器學習基石-林軒田
CS231n: Convolutional Neural Networks for Visual Recognition
Deep Learning Tutorial from Stanford -Stanford計算機系官方tutorial,Andrew Ng執筆
An Introduction to Statistical Learning with Applications in R 強烈推薦看Simple版
Python深度學習 豆瓣評分9。6,深度學習類目下排名第一
動手學深度學習 豆瓣評分9。3,李沐老師寫的
深度學習入門 豆瓣評分9。4,齋藤康毅大神寫的
論文
The Learning Machines - 一個導論性質的文章,讓你大致瞭解深度學習是什麼,用來幹什麼的。
Deep Learning - (Review Article in Nature, May 2015) 三大神 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton的文章,不解釋。
Growing Pains in Deep Learning
Deep Learning in Neural Networks - This technical report provides an overview of deep learning and related techniques with a special focus on developments in recent years。 主要看點是深度學習近兩年(2012-2014)的進展情況。
深度學習程式碼庫
H2O - 一個開源的可擴充套件的庫,支援Java, Python, Scala, and R
Deeplearning4j - Java庫,整合了Hadoop
更多統計學、機器學習、AI知識,歡迎關注我的公眾號「圖靈的貓」,後臺回覆SSR有機場節點相送哦~
建議選非引數統計。
與機器學習一樣,統計學的非引數分析也是不用假設任何具體模型形式而能夠一致估計刻畫資料生成過程的未知函式(如機率密度函式或迴歸函式)。很多重要的機器學習方法,如決策樹、隨機森林、k最近鄰法(k-NN)、人工神經網路、深度學習等,其實就是統計學的非引數方法。這些非引數方法的統計性質,特別是其對未知函式的一致性估計的性質,能夠從理論上解釋與幫助理解為什麼一些機器學習方法擁有精準的樣本外預測能力。
當然,值得注意的是,機器學習不完全等同於統計學的非引數分析方法,例如,機器學習在處理高維解釋變數時具有更大的靈活性,而非引數分析則存在眾所周知的“維數災難”問題。
雖然與統計學的引數建模方法相比,絕大多數機器學習方法不對資料與變數之間的關係給予具體的模型假設或限制,而是根據目標函式透過演算法直接學習、探索資料的系統特徵和變數之間的統計關係,使目標函式最最佳化。但機器學習的本質是一個數學最佳化問題,它比統計學的引數建模更普遍、更靈活,包括對重要解釋變數的選擇與測度。
此為PK入駐導師或往屆學員撰寫,更多幹貨或需要留學、考研/保研的背景提升、科研論文輔導服務,請關注微信公眾號:Paper King。
下一篇:讓流動黨員流動不“流失”