不要被表象迷惑——共因、共果、條件獨立性與伯克森悖論
自古紅顏多薄命是事實還是謬論?在演藝界,演技和長相真的成反比嗎?游泳溺死人數與冰淇淋銷量有關係嗎?根據日常經驗得出的結論,是否是正確的?
本文將介紹“共因”、“共果”兩個概念,來揭示資料與經驗是如何迷惑人們的。
首先看“共因”:如果事件C同時是事件A和事件B的原因,則稱C是事件A和事件B的共因。如下圖所示。共因會引發虛假的因果關係。
比如,我們經常看到一些“科學研究表明”,說兒童的腳掌長度與閱讀能力成正比。腳掌越長,閱讀能力越強。實際上,腳掌長度與閱讀能力其實沒有因果關係。腳掌與閱讀能力有一個共因“年齡”,年齡越大,腳掌長度越長,閱讀能力也越強。如果一定要研究腳掌與閱讀能力之間的關係,需要在控制年齡這一共因的基礎上,即控制變數法。
共因的存在,引入了虛假的因果關係,即容易使人將相關性當作因果性。類似的例子還有很多,游泳溺死人數和冰淇淋銷量有“天氣炎熱”這一共因,因此不能說冰淇淋銷量增加導致了游泳溺死人數增加;腫瘤患者與手機被廣泛使用背後有“科技發展”這一共因,因此不能貿然說手機的輻射導致腫瘤患者增多。
還有一個更著名的例子是,吸菸是否會導致肺癌?統計學大佬(同時也是老煙鬼)費希爾認為吸菸和肺癌沒有因果關係。他給出的理由是,可能存在一個共因,比如某種基因,使得有這種基因的人,更容易染上抽菸這個毛病,同時有這種基因的人,更容易患上肺癌。後來統計學家透過一系列精巧的實驗,證明了吸菸與肺癌的確存在因果關係,這裡先不細講。
再來看“共果”這一概念。如下圖所示,如果是事件A和事件B同時是事件C的結果,那麼稱事件C為事件A和事件B的共果。
回到最初的問題,演員的演技與長相成反比,很可能是錯覺。如下圖所示,一個點代表一個演員。點均勻地分佈在平面,長相與演技沒有相關性。但是,大眾之所以會關注一個演員,大多是因為該演員要麼長得好看,要麼演技出眾。長得難看又演技差勁的演員不會進入大眾的視線。
因此,如下圖所示,我們熟知的演員都是位於紅線的斜上方,下方的點被篩選出去了。而只看紅線上方的點的話,長相和顏值呈現出負相關的關係。
出現這個錯覺的原理是,顏值高與演技高都會產生“受到關注”這一結果,換句話說,“受到關注”是顏值高與演技高的共果。顏值與演技可能本來就沒有相關關係,但是在控制“受到關注”這一共果的條件下,顏值與演技呈現出負相關關係。這稱為伯克森悖論。
類似的例子還有很多:
比如自古紅顏多薄命——醜且短命的女子一般不會受到關注;
寒門出貴子——家境貧寒且一生平庸的人一般不會受到關注;
帥哥出渣男——不帥且性格不好的男人,在約會之前首先會被篩選出去。
伯克森悖論還能用條件獨立來解釋。條件獨立和獨立是兩個不同的概念。
獨立的概念:若
,則稱事件
相互獨立。
條件獨立的概念:若
,且
,則稱事件
關於事件C條件獨立。
獨立不一定匯出條件獨立,條件獨立也不一定匯出獨立。
長相和演技本來是相互獨立(沒有因果)的,但是在條件“受到關注”這一共果下,長相與演技不構成條件獨立。
有一個例子可以直觀地理解條件獨立(來源於 @無名朔 )。如下圖所示,有四個小球,一個小球的顏色是深藍+紅色,一個小球的顏色是紅色,一個小球的顏色同時包含深藍+淺藍+紅色,一個小球的顏色是淺藍。
隨機從中抽取一個小球,事件A=小球的顏色包含深藍,事件B=小球的顏色包含淺藍。
因此A與B是獨立的。
如果增加一個條件:在小球包含紅色的條件下,A與B是否獨立?
不構成條件獨立。
忽略共因會產生虛假的因果關係,忽略共果會產生虛假的相關關係。幾百年的科學發展史,“控制變數法”一直是實驗的準則,它能夠將“共因”固定住,更加科學地探索不同因素之間的關係。但如果不小心將“共果”控制住,很可能會將原本毫無關係的事件賦予相關關係。
上一篇:刷爆朋友圈的喪屍續集《王國》
下一篇:買路虎攬勝運動版還是買卡宴柴油?