一文教你Heckman兩階段模型怎麼分析！

作者：由 SPSSAU 發表于動漫時間：2022-10-25

一、研究背景

在某些情況下，被解釋變數Y的取值範圍會受到限制，比如研究家庭醫療保險支出的影響因素時，某此家庭沒有醫療支出即數字全部為0，也或者研究家庭收入水平時，某些樣本家庭完全沒有收入那麼收入就全部為0，也或者資料調查中有一項為收入為10萬以上，那麼10萬以上的具體資料就‘截尾’（沒有10萬以上，最多就到10萬），又比如研究存款的影響因素，但是有的樣本儲存為負數（即其為負債非儲存），諸如此類，按常理應該是正常的正態資料，但是其被解釋變量出現‘斷層’（刪失），均可使用Heckman兩階段模型進行研究（而不是常用的ols線性迴歸）。以下舉個例子來講Heckman兩階段模型該如何分析。

二、案例背景

當前有一項關於薪資影響因素的研究，被解釋變數薪資，解釋變數為GRE成績，但是會出現一個問題即薪資中有很多缺失資料（即樣本偏差內生性問題），一種處理方式是直接過濾掉缺失資料進行分析，但這種分析方式僅僅是避開樣本選擇偏差內生性問題，如果要直面此種樣本選擇偏差內生性問題，則可考慮使用Heckman兩階段模型。除此之外，GPA成績可能會影響到‘是否有薪資’資料，其可作為‘是否有薪資資料’的解釋變數。為更加方便的檢視被解釋變數薪資的資料分佈情況，將薪資作直方圖如下：

從上圖可以明顯的看到，數字出現刪失，即有一部分資料集中在數字0（數字0代表沒有薪資資料，當然也可以使用null值表示，只是heckman兩階段模型時需要使用數字0表示沒有該資料）。當然在分析的時候可考慮篩選出數字大於0的資料再進行ols線性迴歸也可（但這樣做僅僅是避開樣本選擇偏差可能的內生性問題），如果說篩選出薪資大於0後再做直方圖如下：

明顯的可以看到，篩選出薪資大於0的資料，其明顯的服從正態分佈，使用ols線性迴歸非常適合。但本案例使用heckman兩階段模型目的在於解決樣本選擇偏差導致樣本的內生性問題。

三、SPSSAU操作

補充說明：

第1階段的Y1即01二元資料，其為第2階段的Y2進行資料編碼得到，可使用資料處理->資料編碼功能處理，數字0代表刪失（即沒有薪資資料），數字1代表未刪失（即有薪資資料）；

本案例時第1階段和第2階段的X中，都有‘gre成績’，二者完全一樣，如果上傳資料僅1項，此時可透過資料處理->生成變數功能裡面的平均值功能（自己平均就是自己），複製一個完全相同的資料；

本案例時第1階段中有2個X，分別是‘gre成績’和‘gpa’成績，該兩項可能影響到‘是否有薪資’資料，所以納入該兩項，具體應以實際研究為準即可；

通常情況下並不需要儲存預測值和殘差，也或者IMR值。

四、分析理論

Heckman兩階段模型時，被解釋變數（因變數）Y有著缺失資料，通常首先需要將被解釋變數設定為0和1，0代表刪失（即沒有該項資料），1代表未刪失（即有該項資料），得到新的變數，比如本案例為‘薪資（0代表無1代表有）’，其共分為兩個階段，說明如下：

第1階段：二元probit迴歸模型；即將薪資（且為01項二元資料）作為被解釋變數，並且納入解釋變數（一般情況下，解釋變數為核心研究解釋變數與工具變數），進行二元probit模型後，得到IMR值（Inverse Mill‘s Ratio）。

第2階段：ols迴歸模型，將‘薪資’作為被解釋變數，並且模型會自動納入第1階段得到的IMR值，以及研究的核心解釋變數進行分析，並且在第2階段分析時，會自動過濾出‘未刪失’即薪資沒有缺失的資料，並且得到結果。

針對分析上：如果IMR值呈現出顯著性（p<0。05），即意味著存在樣本偏差內生性問題，也即說明有必要使用Heckman兩階段模型進行分析，反之如果IMR值沒有呈現出顯著性（p>0。05），即意味著樣本偏差內生性問題不嚴重（或不存在），此時可考慮使用 Heckman兩階段模型（或者ols迴歸均可）。

另heckman兩階段模型分析上依舊是針對解釋變數的顯著性進行分析即可，並無其它特別點，其核心應用為處理樣本選擇偏差帶來的內生性問題。

五、SPSSAU分析

Heckman兩階段模型模型彙總

上表格展示Heckman兩階段模型基本情況，包括第1階段和第2階段時，分別對應的被解釋變數和解釋變數情況。

2。研究資料基本彙總

上表格展示Heckman兩階段模型研究資料基本情況，針對第1階段的被解釋變數薪資中有6548個刪失資料（即數字為0的個數），3452個未刪失（即數字為1的個數）。以及資料中沒有其它缺失資料。

3。第1階段（二元Probit迴歸）分析結果彙總

上表格展示第1階段二元probit迴歸的結果，包括模型的R方值，似然比檢驗，各解釋變數的顯著性情況等，事實上第1階段二元probit迴歸結果的意義較小（多數時候並不關注R方，似然比檢驗，顯著性等指標），因為第1階段二元probit迴歸目的在於計算得到IMR值，納入第2階段OLS迴歸中。上表格中gre成績和gpa成績均呈現出0。01水平顯著性，意味著該兩項確實會影響到‘是否有薪資資料缺失’。

4。第2階段（OLS迴歸）分析結果

上表格展示出Heckman第2階段ols迴歸結果，表格中預設包括IMR值，其為第1階段迴歸得到的中間過程值。如果IMR值呈現出顯著性（p<0。05），即意味著存在樣本偏差內生性問題，也即說明有必要使用Heckman兩階段模型進行分析；如果IMR值沒有呈現出顯著性（p>0。05），即意味著樣本偏差內生性問題不嚴重（或不存在），此時可考慮使用 Heckman兩階段模型（或者ols迴歸均可）。

從上表可知，IMR值並呈現出顯著性（p=0。001），也即意味著存在樣本偏差內生性問題，也即說明有必要使用Heckman兩階段模型進行分析，接下來具體分析：gre成績的迴歸係數值為0。022，p值為0。000，小於0。01，意味著gre成績會對薪資（萬）產生顯著的正向影響關係。

總結分析可知：gre成績會對薪資產生顯著的正向影響關係，也即說明gre成績越高時，薪資也會越高。

5。第1階段（二元Probit迴歸）分析結果彙總-簡化格式

分析結果來源於SPSSAU

上表格展示出Heckman第1階段二元probit迴歸的簡化結果表格，該表格列出模型的關鍵資訊點，可直接使用。6。第2階段（OLS迴歸）分析結果-簡化格式

分析結果來源於SPSSAU

上表格展示出Heckman第2階段ols迴歸的簡化結果表格，該表格列出模型的關鍵資訊點，可直接使用。

六、其它問題

（1）heckman兩階段模型的原理？

Heckman兩階段數學模型分為兩階段，第1階段為二元probit模型，並且得到IMR值，第2階段為ols迴歸，且模型中預設包括第1階段中的IMR值，以及第2階段的解釋變數。第1階段時的被解釋變數（因變數）Y只能包括數字0或1，第2階段ols迴歸時其樣本量為過濾掉第1階段Y為1（即未刪失）的樣本量。

（2）heckman兩階段模型時第1階段和第2階段的被解釋變數（因變數）Y是否一致？

通常情況下，第1階段和第2階段的被解釋變數（因變數）Y意義均一致，但數字不一致，第1階段的Y時數字只能為0或1，意義為0代表樣本缺失1代表樣本存在，第2階段的Y時數字代表其真實意義。簡而言之，第1階段的Y通常情況下是由第2階段的Y進行處理後得到。

（3）IMR值的意義？

IMR是一個用於修正樣本選擇偏差的值，其是在heckman兩階段模型的第一階段計算得到。

（4）IMR值是否顯著的意義？

如果IMR值顯著，此時說明樣本偏差問題存在，也即說明使用heckman兩階段模型進行樣本選擇偏差糾正是適合的並且且有必要。反之如果IMR值不顯著，此時可能意味著模型不存在嚴重的樣本選擇偏差，那麼也即說明第二階段模型的結果應該與普通ols迴歸的結論基本一致，研究者可使用spssau計量模組裡面的ols迴歸進行分析對比使用，也即說明IMR值不顯著時，一般使用ols迴歸或者heckman兩階段模型均可。

更多幹貨請前往SPSSAU官網檢視。

SPSSAU_相關|迴歸分析_因子|方差分析_SPSS下載-線上SPSS分析軟體

標簽：階段薪資模型 IMR Heckman

上一篇:2021適合屬牛女孩的名字：聰明雅緻、溫柔有氣質的女孩名字

下一篇：這個女孩啥意思啊？親戚介紹認識的，我該怎麼做？

一文教你Heckman兩階段模型怎麼分析！

猜你喜歡

大概聊聊一些數字後端入門的基本流程吧

地產今年秋招待遇咋樣?我們採訪了500個拿到offer的同學!

比例油泥模型製作步驟

怎麼唱歌怎麼唱頭聲？

試用期三個月，剛剛入職五天，2年工作經驗4k5發現同崗的新人試用工資談的比我轉正還高4k7怎麼談漲薪?