您當前的位置:首頁 > 舞蹈

【筆記】統計學知識整合2:抽樣

作者:由 Robot 發表于 舞蹈時間:2022-06-11

抽樣方法

背景:業務中多用樣本而不是用總體做計算,因為資料量過大得結果慢會耽誤事,所以要學習怎麼抽樣。

掌握抽樣方法可以保證抽取樣本的科學性和合理性。

【筆記】統計學知識整合2:抽樣

統計過程

總的來說是從總體

抽取樣本

,然後計算統計量,再用統計量描述樣本長啥樣。同時用統計量推斷總體長啥樣,然後這個統計方法就用到一些引數檢驗,假設檢驗方法,得出一個p值就是樣本準確描述總體的可能性,多大的時候成立,小於多少的時候不成立。

普查的意思是全都查,不抽樣。

非抽樣調查獲得的是部分調查物件情況,不用推斷總體情況,有片面性。

抽樣調查獲得的也是部分調查物件的情況,需要用這個資料推斷總體,要講究抽樣手法。

【筆記】統計學知識整合2:抽樣

抽樣方法

首先看是不是有調查物件名單,然後看抽取樣本量是不是大

採訪裡的偶遇訪問方式得到結果可信度令人質疑。

抽樣的好處:省資源、速度快、難度低、抽樣誤差可以控制。

非抽樣誤差

是說的是除了抽樣誤差之外的人為差錯導致的誤差,也叫偏差。

問卷收回來的資料要做邏輯校驗,比如看看問卷調查填寫時長,或者多重複選項,設定多問題,設定反向問題。

【筆記】統計學知識整合2:抽樣

敏感問題要注意提問方法,比如把問具體收入改成問收入區間。

【筆記】統計學知識整合2:抽樣

儘量做到等機率抽樣。

【筆記】統計學知識整合2:抽樣

抽樣框是包含全部抽樣單元的資料,比如說一級抽樣單元是省,這個抽樣框就是所有省的名單。很多時候完整的資料框資料很難獲得。

【筆記】統計學知識整合2:抽樣

雖然最好是機率抽樣,但是一般情況下總體未知,所以一般情況下都是用非機率抽樣來模擬機率抽樣。

機率抽樣方法1

: 簡單隨機抽樣

所有調查物件編號,透過隨機數進行抽樣選取,適用於研究總體不太大或者總體單元的元素有完備名單的時候使用。

十萬一下都屬於小樣本。

機率抽樣方法2

:系統抽樣(等距抽樣)

先研究名冊特徵,如果有距離規律的話,要打亂順序再等距抽樣。精度比簡單隨機抽樣差一點,但是差的不多。

機率抽樣方法3

:PPS抽樣

多級的時候用這種抽樣,比如先抽取街區,在從這個街區抽人員。

例子:

【筆記】統計學知識整合2:抽樣

中選機率 = 居委會編號對應家庭數量/家庭數量總計

【筆記】統計學知識整合2:抽樣

第二階段的選中機率是為了反向調整家庭戶中選機率,讓它們被等機率抽取。

機率抽樣方法3:分層抽樣

分層原則:層內差異小,層間差異大。

【筆記】統計學知識整合2:抽樣

如何選擇分層變數 1:選擇與研究主題高度相關的變數,比如研究收入問題時,考慮學歷、年齡、性別等影響收入的基本屬性 2 成本:分層因素考慮越多、選取的樣本量就越多,學歷(高中低)收入(高中低)性別(男女)每類樣本至少保證30人以上,18*30 = 540 人。

機率抽樣方法4:區域抽樣

【筆記】統計學知識整合2:抽樣

機率抽樣方法5:時間抽樣

【筆記】統計學知識整合2:抽樣

要先觀察不同時間段的經過人數,然後按照規模比抽樣。

機率抽樣方法6:RDD(用的很少)

【筆記】統計學知識整合2:抽樣

總結:

【筆記】統計學知識整合2:抽樣

多階段就是PPS

標簽: 抽樣  機率  方法  樣本  總體