工具變數 (Instrumental variables) 的作用到底是什麼?
謝
@苗苗
邀。
你的理解有問題。舉個例子來說明一下。
比如在教育的回報問題上,我們會估計如下方程:
然而一個人的能力ability是不能觀測的,所以我們實際上能做的估計方程是:
然而一般情況下,教育edu跟一個人的能力是有正的相關性的,比如研究生的能力一般比本科生強,所以導致了
即解釋變數跟誤差項相關了。這個時候使用OLS估計,係數不是一致的,一般來說
被高估了。注意這個情況下,即使只有
是
內生
的,由於
跟
也可能相關,因而
也是不一致的。
怎麼處理呢?用工具變數。假設現在存在一個跟內生變數
高度相關,然而跟
不相關,或者說跟
不相關的變數
,我們稱其為
工具變數
。有了這個工具變數,就可以使用矩條件:
來一致地估計
。比如我們可以使用距離學校的距離,這個變數會導致教育年限的差別,但是跟個人的能力應該是無關的,這就是一個潛在的工具變數。
所以總結一下,內生性是說,某個解釋變數跟誤差項相關了,常見的可能導致內生性的情況比如:
遺漏變數
(比如我們舉的例子)、
度量誤差、互為因果、樣本選擇
等等。
而工具變數,就是要找到一個跟誤差項不相關,但是跟內生變數高度相關的變數,從而得到一致估計。
排第一的回答已經很足夠了 補充一下
主要因為 x 和 誤差項相關 所以結果有偏差 因此 需要其他 變數來代替x 做迴歸 其他變數 一定不能和誤差項相關 於是解決上述問題 迴歸可以變不偏
然後 你可以發想 有弱工具 有強工具 取決於工具與x的相關性
我講的比較抽象 不知你是否可以理解
謝邀,工具變數其實就可以看作是一個過濾器。
要想讓OLS估計的準,我們總是希望把因變數Y拆成兩個獨立的部分,一部分是自變數X和引數
,另一部分是我們無法控制的擾動
。而如果這兩者不正交,那麼做迴歸的時候,有些因素就可以在X和
之間遊走不定,因為我們沒法控制,所以我們無從知道這個遊走不定,暗地裡聯絡著X和
的因素到底會在估計出來的引數中如何體現,體現多少,是在X身上分配多一點,還是隱含在殘差裡面多一點……所以這樣就導致OLS估計不準,這也是所謂的內生性問題。
要解決這個問題,我們想做的就是找一個過濾器,把X中和
相關的部分過濾掉,只剩下正交的部分,這樣OLS就又重振雄風了。工具變數就是這個過濾器。
拿常見的2SLS做例子,第一步是先用工具變數Z做自變數,對X進行迴歸,然後得出一系列的引數。這一步的意義在於,把X分成兩個部分,由Z決定的部分,和於Z無關的部分,這兩者之間是正交的關係。
而因為工具變數的定義就是和X有關而和
無關,所以把X拆開的這兩部分,由Z決定的部分自然也和
無關,而另外那部分,就是我們要過濾掉的渣子——X中蘊含著的和
相關的東西。
扔掉渣子很簡單,就是用擬合值
來代替真的X,這樣相當於把X清洗了一遍,所有和我們無法控制的因素相關的都被工具變數過濾掉了,代入到原來的方程式中迴歸,就能得到更準的估計了。
理想情況下,工具變數Z和自變數X強相關,然後和
無關,這就是找對了合適的過濾器,渣子都清洗掉了,剩下的是純正的OLS的味道;但是有的時候Z雖然和
無關,但是和X關係也不大,這就相當於過濾網孔相對太細,能夠留下來的部分很少,受到樣本的影響也會更大,這個時候就是我們說的弱工具變量了。
針對精簡版問題的答案(集中討論IV,X,Y,還有epsilon的關係):
考慮迴歸:
Y = a + bX + e
如果X與e(epsilon)存在相關關係,即Corr(X , e) != 0,在這種情況下OLS的估計是有偏的。
為了解決這個問題,我們需要找到一個IV(Z),它需要滿足兩個條件:
a) 相關性條件(Relevance Condition): Corr(Z , X) != 0
b) 排除性限制(Exclusion Restriction): Corr(Z , e) = 0
換句話說:
a) IV 必須與X相關
b) IV
只能透過與X的相關性來與Y相關
(即,Z只能透過引起X的變化來引起Y的變化)
最後,舉個例子:如果你想知道吸菸(X)與高血壓(Y)的關係,是不方便直接將吸菸與血壓進行迴歸的,因為壓力(e)這種不可觀測的因素既導致吸菸又導致高血壓,即(Corr(X , e) != 0)。那麼該怎樣得到吸菸與高血壓之間的無偏估計呢?
可以考慮使用菸草稅(Z)作為工具變數,因為:
Corr(Z , X) != 0 (菸草稅會影響吸菸成本,進而影響人們的吸菸行為)
Corr(Z , e) = 0 (菸草稅(基本上)與血壓無關 - 除非有人辯駁稱經濟形勢與菸草稅的徵收有關,而經濟形勢同時也會影響人的血壓)
所以,菸草稅(基本上)只能透過對影響吸菸行為來影響血壓,因而是吸菸行為的好的工具變數。
(再次說明:
IV不是與Y無關
,而是
IV只能透過影響X來(間接)影響Y。
或者說,
IV不能
透過影響e來
同時影響X和Y。
)
反例:父親的吸菸行為(Z‘)可以作為這裡的IV嗎?
個人認為不是很好,因為儘管:
Corr(Z’ , X) != 0 (父親吸菸,孩子更有可能吸(更多)煙)
但是:
Corr(Z‘, e) != 0 (吸菸的父親可能也揹負了更大的生活壓力,或更缺乏自制力,從而對孩子的身心健康產生不利而且長遠的影響,最終導致孩子罹患高血壓)
所以,父親的吸菸行為(Z’)不如菸草稅的徵收(Z)更適合做吸菸行為(X)的工具變數。
以上。
參見連享會推文:
專題:
IV-GMM
twostepweakiv:弱工具變數有多弱?
多個(弱)工具變數如何應對-IV-mivreg?
相關推文
Note:產生如下推文列表的 Stata 命令為:
lianxh 工具變數
安裝最新版
lianxh
命令:
ssc install lianxh, replace
專題:
Stata命令
多個(弱)工具變數如何應對-IV-mivreg?
IV:工具變數不滿足外生性怎麼辦?
IV-工具變數法:第一階段係數符號確定時的小樣本無偏估計
IV:可以用內生變數的滯後項做工具變數嗎?
Stata: 工具變數法 (IV) 也不難呀!
IV-估計:工具變數不外生時也可以用!
專題:
內生性-因果推斷
工具變數-IV:排他性約束及經典文獻解讀
下一篇:如何判斷一個人真的死亡了?