您當前的位置:首頁 > 動漫

一文教你Heckman兩階段模型怎麼分析!

作者:由 SPSSAU 發表于 動漫時間:2022-10-25

一、研究背景

在某些情況下,被解釋變數Y的取值範圍會受到限制,比如研究家庭醫療保險支出的影響因素時,某此家庭沒有醫療支出即數字全部為0,也或者研究家庭收入水平時,某些樣本家庭完全沒有收入那麼收入就全部為0,也或者資料調查中有一項為收入為10萬以上,那麼10萬以上的具體資料就‘截尾’(沒有10萬以上,最多就到10萬),又比如研究存款的影響因素,但是有的樣本儲存為負數(即其為負債非儲存),諸如此類,按常理應該是正常的正態資料,但是其被解釋變量出現‘斷層’(刪失),均可使用Heckman兩階段模型進行研究(而不是常用的ols線性迴歸)。以下舉個例子來講Heckman兩階段模型該如何分析。

二、案例背景

當前有一項關於薪資影響因素的研究,被解釋變數薪資,解釋變數為GRE成績,但是會出現一個問題即薪資中有很多缺失資料(即樣本偏差內生性問題),一種處理方式是直接過濾掉缺失資料進行分析,但這種分析方式僅僅是避開樣本選擇偏差內生性問題,如果要直面此種樣本選擇偏差內生性問題,則可考慮使用Heckman兩階段模型。除此之外,GPA成績可能會影響到‘是否有薪資’資料,其可作為‘是否有薪資資料’的解釋變數。為更加方便的檢視被解釋變數薪資的資料分佈情況,將薪資作直方圖如下:

一文教你Heckman兩階段模型怎麼分析!

從上圖可以明顯的看到,數字出現刪失,即有一部分資料集中在數字0(數字0代表沒有薪資資料,當然也可以使用null值表示,只是heckman兩階段模型時需要使用數字0表示沒有該資料)。當然在分析的時候可考慮篩選出數字大於0的資料再進行ols線性迴歸也可(但這樣做僅僅是避開樣本選擇偏差可能的內生性問題),如果說篩選出薪資大於0後再做直方圖如下:

一文教你Heckman兩階段模型怎麼分析!

明顯的可以看到,篩選出薪資大於0的資料,其明顯的服從正態分佈,使用ols線性迴歸非常適合。但本案例使用heckman兩階段模型目的在於解決樣本選擇偏差導致樣本的內生性問題。

三、SPSSAU操作

一文教你Heckman兩階段模型怎麼分析!

一文教你Heckman兩階段模型怎麼分析!

補充說明:

第1階段的Y1即01二元資料,其為第2階段的Y2進行資料編碼得到,可使用資料處理->資料編碼功能處理,數字0代表刪失(即沒有薪資資料),數字1代表未刪失(即有薪資資料);

本案例時第1階段和第2階段的X中,都有‘gre成績’,二者完全一樣,如果上傳資料僅1項,此時可透過資料處理->生成變數功能裡面的平均值功能(自己平均就是自己),複製一個完全相同的資料;

本案例時第1階段中有2個X,分別是‘gre成績’和‘gpa’成績,該兩項可能影響到‘是否有薪資’資料,所以納入該兩項,具體應以實際研究為準即可;

通常情況下並不需要儲存預測值和殘差,也或者IMR值。

四、分析理論

Heckman兩階段模型時,被解釋變數(因變數)Y有著缺失資料,通常首先需要將被解釋變數設定為0和1,0代表刪失(即沒有該項資料),1代表未刪失(即有該項資料),得到新的變數,比如本案例為‘薪資(0代表無1代表有)’,其共分為兩個階段,說明如下:

第1階段:二元probit迴歸模型;即將薪資(且為01項二元資料)作為被解釋變數,並且納入解釋變數(一般情況下,解釋變數為核心研究解釋變數與工具變數),進行二元probit模型後,得到IMR值(Inverse Mill‘s Ratio)。

第2階段:ols迴歸模型,將‘薪資’作為被解釋變數,並且模型會自動納入第1階段得到的IMR值,以及研究的核心解釋變數進行分析,並且在第2階段分析時,會自動過濾出‘未刪失’即薪資沒有缺失的資料,並且得到結果。

針對分析上:如果IMR值呈現出顯著性(p<0。05),即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析,反之如果IMR值沒有呈現出顯著性(p>0。05),即意味著樣本偏差內生性問題不嚴重(或不存在),此時可考慮使用 Heckman兩階段模型(或者ols迴歸均可)。

另heckman兩階段模型分析上依舊是針對解釋變數的顯著性進行分析即可,並無其它特別點,其核心應用為處理樣本選擇偏差帶來的內生性問題。

五、SPSSAU分析

一文教你Heckman兩階段模型怎麼分析!

Heckman兩階段模型模型彙總

一文教你Heckman兩階段模型怎麼分析!

上表格展示Heckman兩階段模型基本情況,包括第1階段和第2階段時,分別對應的被解釋變數和解釋變數情況。

2。研究資料基本彙總

一文教你Heckman兩階段模型怎麼分析!

上表格展示Heckman兩階段模型研究資料基本情況,針對第1階段的被解釋變數薪資中有6548個刪失資料(即數字為0的個數),3452個未刪失(即數字為1的個數)。以及資料中沒有其它缺失資料。

3。第1階段(二元Probit迴歸)分析結果彙總

一文教你Heckman兩階段模型怎麼分析!

上表格展示第1階段二元probit迴歸的結果,包括模型的R方值,似然比檢驗,各解釋變數的顯著性情況等,事實上第1階段二元probit迴歸結果的意義較小(多數時候並不關注R方,似然比檢驗,顯著性等指標),因為第1階段二元probit迴歸目的在於計算得到IMR值,納入第2階段OLS迴歸中。上表格中gre成績和gpa成績均呈現出0。01水平顯著性,意味著該兩項確實會影響到‘是否有薪資資料缺失’。

4。第2階段(OLS迴歸)分析結果

一文教你Heckman兩階段模型怎麼分析!

上表格展示出Heckman第2階段ols迴歸結果,表格中預設包括IMR值,其為第1階段迴歸得到的中間過程值。如果IMR值呈現出顯著性(p<0。05),即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析;如果IMR值沒有呈現出顯著性(p>0。05),即意味著樣本偏差內生性問題不嚴重(或不存在),此時可考慮使用 Heckman兩階段模型(或者ols迴歸均可)。

從上表可知,IMR值並呈現出顯著性(p=0。001),也即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析,接下來具體分析:gre成績的迴歸係數值為0。022,p值為0。000,小於0。01,意味著gre成績會對薪資(萬)產生顯著的正向影響關係。

總結分析可知:gre成績會對薪資產生顯著的正向影響關係,也即說明gre成績越高時,薪資也會越高。

5。第1階段(二元Probit迴歸)分析結果彙總-簡化格式

一文教你Heckman兩階段模型怎麼分析!

分析結果來源於SPSSAU

上表格展示出Heckman第1階段二元probit迴歸的簡化結果表格,該表格列出模型的關鍵資訊點,可直接使用。6。第2階段(OLS迴歸)分析結果-簡化格式

一文教你Heckman兩階段模型怎麼分析!

分析結果來源於SPSSAU

上表格展示出Heckman第2階段ols迴歸的簡化結果表格,該表格列出模型的關鍵資訊點,可直接使用。

六、其它問題

(1)heckman兩階段模型的原理?

Heckman兩階段數學模型分為兩階段,第1階段為二元probit模型,並且得到IMR值,第2階段為ols迴歸,且模型中預設包括第1階段中的IMR值,以及第2階段的解釋變數。第1階段時的被解釋變數(因變數)Y只能包括數字0或1,第2階段ols迴歸時其樣本量為過濾掉第1階段Y為1(即未刪失)的樣本量。

(2)heckman兩階段模型時第1階段和第2階段的被解釋變數(因變數)Y是否一致?

通常情況下,第1階段和第2階段的被解釋變數(因變數)Y意義均一致,但數字不一致,第1階段的Y時數字只能為0或1,意義為0代表樣本缺失1代表樣本存在,第2階段的Y時數字代表其真實意義。簡而言之,第1階段的Y通常情況下是由第2階段的Y進行處理後得到。

(3)IMR值的意義?

IMR是一個用於修正樣本選擇偏差的值,其是在heckman兩階段模型的第一階段計算得到。

(4)IMR值是否顯著的意義?

如果IMR值顯著,此時說明樣本偏差問題存在,也即說明使用heckman兩階段模型進行樣本選擇偏差糾正是適合的並且且有必要。反之如果IMR值不顯著,此時可能意味著模型不存在嚴重的樣本選擇偏差,那麼也即說明第二階段模型的結果應該與普通ols迴歸的結論基本一致,研究者可使用spssau計量模組裡面的ols迴歸進行分析對比使用,也即說明IMR值不顯著時,一般使用ols迴歸或者heckman兩階段模型均可。

更多幹貨請前往SPSSAU官網檢視。

SPSSAU_相關|迴歸分析_因子|方差分析_SPSS下載-線上SPSS分析軟體

標簽: 階段  薪資  模型  IMR  Heckman