如何系統地學習統計學,指匯入門資料分析
先介紹自己的情況,非
統計學專業
,大學經管類文科背景,但數學基礎還行,高數上下期末滿分,線代
機率論
期末90分以上,但是考完就忘依然說明不了什麼,找工作的過程中老是被問到是不是統計學專業?統計學怎麼樣?最近在找完工作後,決定好好系統的自學下統計學。先從列書單開始。如何建立這個自學系統?很簡單,找個統計學專業的專業課課表不就行了,但是專業的又太難,這裡參考下知乎上兩位清華大佬輔修統計學的課表,並列出每門課程的綜合評估推薦的書籍和資源。
圖片來源:
https://www。
zhihu。com/question/4282
8838/answer/321599384
另外,對於資料小白,可以透過CDA考試學習資料分析相關的統計知識,考試也可以督促好好將基礎知識進行學習,系統的鞏固和學習。
以下課程學習難度按順序依次增加(個人觀點):
《初等機率論》:幾乎是每個大學的數學基礎必修課,難度不大,但是需要弄清楚很多概念,不然到後期學習進階的時候非常痛苦,比如最基礎的總體、樣本、總體方差、樣本方差、抽樣方差、標準誤和均方誤差的區別。把初等機率論介紹得最完整且每個概念都加上案例的教材推薦用的是 Probability and Statistics 4E。
《
資料科學導論
》:因為R語言、stata等工具是比較適合用來做統計分析的,裡面集成了大量現成的包和函式來直接實現取樣、假設檢驗、分佈函式等,這門課程主要講解R語言的基礎,比如資料處理(dplyr, reshape2, data。table,tidyverse)視覺化(ggplot2)web(shiny)文字分析(Regular Expression)都是目前最火最有用的技能,這裡就自己推薦一本最火的R語言實戰 2E。
《
線性迴歸分析
》:線性迴歸幾乎是所有模型的入門模型,但是很多課程上只講瞭如何去擬合得到模型,沒有講解用線性模型的條件和模型成立的檢驗。這門課程主要講了線性迴歸的本質整門課五個slides——基礎知識/一元線性迴歸/矩陣形式/多元線性迴歸/
方差分析
。包括講述了模型如何診斷問題,如何改進。教材是國外研究生最推薦的Applied Linear Statistical Models 5E,內容不會涉及太複雜的證明。
《
多元統計分析
》:介紹多元正態分析,主成分分析,因子分析,
聚類分析
等等分析處理高維資料的手段。國內清華、上交都用的這本教材Applied Multivariate Statistical Analysis 6E。
《
統計推斷
》:統計學核心課程,很多統計學教材的第三四章就會開始講解統計推斷,比如引數點估計、區間估計、假設檢驗等,再難一些的Bootstrap再抽樣法、刀切(Jackkrlife)估計、EM演算法、
Logistic迴歸
、穩健(Robest)迴歸、Markov鏈、Monte Carlo方法等。建議在B站上找影片配合教材一起看,教材推薦Casella 的 Statistical inference。
《貝葉斯資料分析》:基礎主要是貝葉斯推斷、
先驗分佈
的確定,進階包括單引數模型到多引數模型到層次化模型,計算方法如各種取樣方法,MH,MCMC。英文教材是 Gelman 的 Bayesian Data Analysis,中文教材推薦貝葉斯統計,先看中文教材的前100頁,再看英文教材。貝葉斯統計這本書的影片推薦西安交通大學的
梅長林
教授。
https://www。
bilibili。com/video/av59
317868?from=search&seid=13900492311165502242
《統計計算》:基礎主要講離散和連續隨機數的生成,難點的主要是EM、boostrap、MCMC、凸最佳化、模擬退火那些,其中MCMC是對複雜分佈取樣的好方法,目前大多數論文都用這個方法進行引數求解,教材推薦李東風的統計計算,同時這本書北大的老師有專門的部落格針對裡面的方法用R語言實現,可結合一起看。
http://www。
math。pku。edu。cn/teacher
s/lidf/docs/statcomp/html/_statcompbook/index。html
《
因果推斷和圖模型
》:一門好課,但是除統計學專業,其他的專業都不會開的課。研究因果性應該屬於通識教育,經管類專業應該開設,避免很多人出現相關關係直接推因果的尷尬誤區。介紹 Rubin Causal Model 框架下
隨機化
實驗的推斷和觀察性研究的方法。基礎教材推薦Robins Causal inference,同時推薦人工智慧先驅、貝葉斯網路之父 Pearl 的The Book of Why: The New Science of Cause and Effect。
《
應用時間序列分析
》:主要講ARIMA和GARCH這兩個時間序列模型,應用場景有預測股票、評估收益率、評估風險等,教材推薦何書元的應用時間序列分析。
《
可靠性資料與生存分析
》:各種Survival Model,對有“刪失資料”的分析場景很有用。比如檢驗影響燈泡壽命的引數,檢驗某個藥物對人是否有效等等,教材推薦John survival analysis techniques for censored and truncated data 2E。影片推薦B站UP主餃子博士的影片。
《非引數統計》:難度很大,可以需要時再學。主要涉及非參估計和非引數檢驗,比如核函式方法,推薦liqi的Nonparametric econometrics: theory and practice。
上一篇:怎樣算是很文藝又沒有什麼文化?
下一篇:怎麼找有經驗的程式設計師?