您當前的位置:首頁 > 收藏

什麼是辛普森悖論?

作者:由 計算機與AI 發表于 收藏時間:2020-10-06

以一種方式檢視資料可以講述一個故事,但是有時以另一種方式檢視資料可以講述相反的故事。瞭解這一悖論及其發生的原因至關重要,並且可以使用新工具來自動檢測資料集中的這一棘手問題。

當我們想研究資料中的關係時,我們可以繪製,交叉製表或對該資料建模。當我們這樣做時,我們可能會遇到這樣的情況:從單個數據集的兩個不同檢視中看到的關係導致我們得出相反的結論。這些都是辛普森悖論的案例。

找到這些案例可以幫助我們更好地理解我們的資料並發現有趣的關係。本文提供了這些情況發生的位置的一些示例,討論了它們如何發生以及為什麼發生,並提出了在您自己的資料中自動檢測這些情況的方法。

什麼是辛普森悖論?

辛普森悖論是指一種情況,您認為您瞭解兩個變數之間的關係方向,但是當您考慮其他變數時,該方向似乎相反。

為什麼發生辛普森悖論?

之所以發生Simpson悖論,是因為資料的分解(例如,將其拆分為子組)可能導致某些子組與其他子組相比具有不平衡的表示形式。這可能是由於變數之間的關係,或者僅僅是由於資料已被劃分為子組的方式。

範例1:入場

辛普森悖論的一個著名的例子出現在加州大學伯克利分校錄取資料。在此示例中,從

總體

上看研究生錄取資料時

看來男人比女人更容易被錄取(性別歧視!),但是當

單獨檢視每個部門

的資料時

男人比女人更容易被錄取。大多數部門中的女性。

什麼是辛普森悖論?

這是為什麼發生這種情況的說明:

不同部門的接受率非常不同(有些部門比其他部門“難”得多)

更多女性申請“更難”的部門

因此,女性的總體接受率較低

這導致我們問:哪個檢視是正確的檢視?男人或女人的接受率更高?這所大學的招生是否存在性別偏見?

在這種情況下,似乎最合理的結論是,按部門檢視招生率更為合理,而分類的觀點是正確的。

範例2:棒球

辛普森悖論的另一個例子可以在兩個著名棒球運動員,杰特和大衛。1995年和1996年,David Justice分別擁有較高的打擊率,但兩年來,Derek Jeter的打擊率均較高。

什麼是辛普森悖論?

兩位選手的平均命中率均比1995年高

1996年,德里克·杰特(Derek Jeter)的蝙蝠數量明顯增加。1995年,戴維·正義案(David Justice)的人數更多

因此,Derek Jeter的平均擊球率更高

什麼是辛普森悖論?

Knowledge Studio決策樹顯示了1995年和1996年每個球員的擊球次數不平衡

辛普森悖論怎麼辦

沒有足夠的領域知識,就很難知道對兩個變數之間的關係的哪個觀點更有意義-一個變數是否包含第三個變數。

但是在考慮如何處理辛普森悖論之前,我們需要找到一種在資料集中有效檢測它的方法。如前所述,只需分解列聯表或資料點圖並研究結果,便可以找到辛普森悖論(“辛普森對”)的例項。但是,還有其他方法可以使用模型找到辛普森對,例如:

透過建立決策樹並比較分佈,或者

透過建立迴歸模型並比較係數的符號

兩者都有好處,但是,這會很快變得困難,尤其是在處理大型資料集時。很難知道資料集中哪些變數可能會顛倒另外兩個變數之間的關係,並且很難手動檢查所有可能的變數對。假設我們有一個只有20個變數的資料集:我們需要檢查將近400對,以確保找到所有Simpson‘s Paradox的情況。

即使我們已經搜尋(並找到)所有可能的辛普森配對,也要考慮其他挑戰。這些挑戰與解釋有關,例如:

趨勢是否需要在每個子組中反轉才能將某物視為“辛普森配對”?還是大多數亞組足夠?

子組的大小重要嗎?如果趨勢在許多小的子組中發生了逆轉,而在最大的子組中卻沒有,該怎麼辦?

當試圖自動檢測辛普森悖論時,這些最後的挑戰不會消失,但是透過被迫提前做出決定,我們至少可以以系統且一致的方式處理它們。

結論

辛普森悖論是一個棘手的問題,但是出色的分析師或資料科學家可以使用正確的工具和知識來處理它。我希望我的文章可以幫助其他人以更輕鬆地瞭解此問題。

標簽: 辛普森  悖論  資料  變數  子組