您當前的位置:首頁 > 文化

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

作者:由 掛枝兒 發表于 文化時間:2021-12-18

本文是

第四章筆記。

主要內容:

回顧條件機率、以及對應的貝葉斯定律(Conditional Prob and Bayes‘ Theorem)

先驗、似然、以及貝葉斯中的後驗是個啥意思(Prior, Likelihood, and Posterior of Baye’s Theorem)

如何將先驗機率與機率分佈相結合(Bayesian Priors and Working with Probability Distributions)

| 1。 回顧條件機率、貝葉斯定律

1。1 條件機率

什麼是條件機率

很快回顧下,假設一個得疾病A的機率是P(A)=2/100,000,另外我們得知,如果一個人已經感冒,那麼他得疾病A的機率機率會增加,變為P(A| 感冒) = 3/100,000。

那麼條件機率對於我們而言意義在這個場景下在於,他讓我們能夠根據資訊來調整我們對於某一個事件發生機率的大小。

比如如果我們在人群中隨機抽樣,那麼這個人得疾病A的機率就是2/100,000,但如果我們得知這個人已經感冒,那麼我們認為這個人得病的機率就會增加,變為3/100,000。我們也可以透過2個機率的比值來表達這個過程:

\frac{P(A|感冒)}{P(A)}=1.5

,也就是說,得感冒的人相比大盤樣本,有50%更高的機率得A病。(雖然在個體樣本層面,得病的機率依舊非常低)

番外 - 事件獨立性

進一步介紹條件機率前,還要再提一嘴事件的獨立性。拿色盲這個事距離,總人群中色盲的比例為4。25%,然而男性相比女性,有16倍更高的機率會成為色盲,假設男女比例為1:1,我們可以將以上資訊表達為:

P(Colour Blind) = 0.045, P(Colour Blind | female) = 0.005,  P(Colour Blind | male) = 0.08

根據上面這些資訊,如果我們從人群中隨機抽一個人出來,他是男性且色盲的機率有多大?

根據過往經驗,我們可能會這樣子來計算結果:

P(Colour Blind, Male)  = P(Colour Blind) * P(Male)  = 0.5 * 0.0425 = 0.2125

那如果這個樣本是女性呢?他是色盲的機率有多大?我們可能認為計算方式為:

P(Colour Blind, Female)  = P(Colour Blind) * P(Female)  = 0.5 * 0.0425 = 0.2125

顯然這與我們的先驗知識向左,明明男性比女性更容易色盲,那為啥在實際計算的時候,他們是色盲的機率相同的呢? 因為機率的相乘法則只適用於

獨立事件

,而色盲與性別,

顯然是有一定關聯性的

,非獨立事件。所以真正計算一個男性是色盲的機率計算公示應該是:

男性的機率 * 男性樣本中,是色盲的機率

P(Colour Blind, Male)  = P(Male) * P( Color Blind| Male) =0.5 * 0.08 = 0.4

所以非獨立事件的相乘法則應該寫為:

P(A, B) = P(A) * P(B|A)

這個公示其實對於獨立時間也適用,因為在獨立時間中P(B)與P(B|A)理論上應該是相等的。

相應的我們也可以根據這個道理更新機率的相加法則:

P(A or B) = P(A) +P(B)-P(A)*P(B|A)

需要注意的是,真實世界裡我們很難知道2個事件之間是否存在關聯性,所以雖然一般在實務中我們傾向與假設事件質檢是獨立的,

但也不能忘記當2個事件實質上有關聯時,我們可能會錯的很離譜

反轉條件機率 以及 —— 貝葉斯定律

條件機率的一個常用場景在於,我們可以透過P(B|A)的來反向推出P(A|B)。還是拿色盲舉例,假設我們知道一個人是色盲,那麼有多大的機率他是一個男性?

我們知道P(Color Blind | Male) = 0。08以及P(Color Blind | Female) = 0。005,那麼我們怎麼得到 P( Male | Color Blind)呢? 我們可以將問題一步步的拆解:

首先我們得到人群中,總共有多少色盲

我們再計算這群色盲中,有多少是男性

兩者相除,便是P(Color Blind | Male)。 上面的方法用公式可以寫為:

P(Male | Color Blind) = \frac{P(Male) * P(Color Blind |Male) * N}{P(Color Blind)}=\frac{0.5 * 0.08}{0.0425}=0.941

根據上面的結果,得知一個人是色盲,我們可以推斷出他有94。1%的機率是男性。

將剛剛的公示進行進一步泛化,

我們就可以得到貝葉斯定律的公式

P(A|B) = \frac{P(A) * P(B|A)}{P(B)}

為什麼貝葉斯定律很重要

在公式中,右邊的條件機率部分也成為我們的似然引數(likelihood),也稱為(這句話我覺得翻譯了就很乖,所以不翻譯了) the likelihood of what we‘ve seen given what we believe,也可以寫為:

P(observed | belief)

,舉個例子:

假設我們認為溫室效應的確存在,並且我們觀察到了在過去10年中發生了5次乾旱。從貝葉斯的角度來考慮這個問題可以表達為:What is the probability of what i’ve observed, given that i believe climate is true? 貝葉斯定律的強大支出在於他可以透過 P(belief |observed) 來幫你倒推出 P(observed | belief)。 比如如果專家告訴你,如果我們的假設溫室效應存在,10年旱5次的機率是非常低的

P(observed | belief)

很低。那麼我們對於

P(belief |observed)

這個假設的信心就會極大的增強!(反之依然)。 這就是貝葉斯定律最有用的地方!

這裡貝葉斯定律其實就像樂高(下圖中分下層的A,B區以及上層的C區)。本質上就是對空間進行不同型別切割後的比例考量。

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

|2。 先驗、似然、以及貝葉斯中的後驗

貝葉斯定律可以讓我們量化手裡觀察到的的資料能夠對我們的先驗假設的變化。用公式可以表達為 P(belief | data),

也就是所謂的後驗機率,這也是我們一般想要用貝葉斯定律解決的問題

透過上面的公式我們知道,想要得到後驗我們需要其他三個部門:

資料的先驗機率(Prior Probability)。代表了我們在見到實際資料前對問題的假設新年。

根據我們的假設所得到的資料(P(Data | Belief)

注意和上面不一樣

這一部分也叫做

Likelihood。

最後我們還需要P(data) 來標準化(normalize)我們的分子。

另外,在實務中,我們並不會總需要P(data)。下面結合圖來看一下剛剛說的:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

我們接下來來看個例子來進一步理解:

假設我們回家後看到了窗戶被打破,門被開啟,膝上型電腦也不見了(下面三個事件分別簡寫為b,o,m),那麼你的第一反應肯定是:我被搶了! 那麼我們如何量化這個問題呢?

這裡我們就可以將剛剛講到的理論進行套用,顯然這裡的假設H=我被搶了。我們想要結合眼下觀察到的資訊(likehood)來得到一個後驗的機率計算,用公式可以表達為:

P(Robbed | b,o,m)

首先來想一下

likehood

如何得到P(b,o,m | robbed)。 這裡的表示式當你被搶劫時候,有多大的可能窗戶被打破,門被開啟,膝上型電腦也不見了。 考慮到賊有都中作案方式,我們可以給這個機率拍個腦袋 寫為 3/10

接下來看一下如何計算先驗機率P(robbed),這裡就也拍個腦袋寫為1/1000

至此貝葉斯公示的上半部分資訊我們都已經得到,計算可得:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

可以發現這個值是非常小的,和我們的直覺有些相悖,可以看看我們下一步如何可以得到公式的分母。

我們缺少的部分是P(b,o,m),可以發現這個數字並不是那麼好拍腦袋的,生活中會發生這個事件的場景其實還不少,但我們根據現有的資料,可以先帶幾個數字進公示看看,不同P(b,o,m)的取值對最終後驗機率的計算影響:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

可以發現P(D)越小,我們的後驗機率就越大

在實務中往往卡主我們的就是P(D)非常難計算或者事前得到,所以與其在這個上面花費更大的力氣,

我們可以對其他可能導致我們觀察到的情況也進行計算(提出不同的假設),然後將他們的可能性進行對比P(D)會被消除! 這樣就免去了窮舉來得到P(D)的蛋疼問題

The good news is that in some cases we don’t need to explicitly know

P

D

), because we often just want to

compare

hypotheses。 In this example, we’ll compare how likely it is that you were robbed with another possible explanation。 We can do this by looking at the ratio of our unnormalized posterior distributions。 Because the

P

D

) would be a constant, we can safely remove it without changing our analysis。

說到這裡我們就可以考慮一個新的假設:

鄰居不當心打碎了窗戶

我們忘記關門

筆記本沒丟,我們只是忘在了公司。

所以我們的第二個假設H2 = P(1,2,3)

接下來我們就可以仿照剛剛的步驟,對這個假設下的likelihood進行計算P(D|H2) = 1 (想一下這個就很make sense)。先驗機率我們可拍個腦袋,P(H2) =1/ 21900000。這樣的話,第二個假設未標準化的結果就可以寫為:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

現在我們就可以將2個未標準化的後驗機率進行對比:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

進一步進行展開可得:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

可以發現雖然我們沒有進行實際的量化結果,但第一個假設發生的機率是第二個的6570倍!

這裡再引申一下,實務中在以對比為目的的計算中,確實有大量省去分母的場景,

因為P(H|D)與P(H)*P(D|H)是成比例的

,用公式可以寫為:

| 3。 如何將先驗機率與機率分佈相結合

貝葉斯定律中的先驗機率部分往往是爭論最多的,

因為(從剛剛的例子中也可以看得出)先驗機率的指定是非常主觀的

。但是在事務中,先驗機率往往往往可以為我們在不確定的場景下提供關鍵的資訊!

書中接下來舉了個非常有意思的例子,在星戰電影中,當漢索羅為了躲避敵軍追擊衝進小型星帶時,C-3po說: 能夠成功穿越小行星帶的機率是 1 / 3720 !

如果抽象成機率問題,C-3PO這句話其實代表的就是他透過國王的資料觀察所得到的 likehood。 但顯然這條對漢索羅不適用(因為他是主角啊!)。 那麼我們的問題就是,如果能避免C-3PO的估計錯誤,對漢索羅成功穿越小行星流的機率進行正確的計算呢!

這裡我們將會引入之前提到的Beta分佈來幫助我們(不瞭解可以看看掛枝兒:趣學貝葉斯-Beta分佈)還記得Beta分佈的引數是\alpha (實驗成功的次數) 以及 \beta (實驗失敗的次數):

P(rate\ of\ success | success\ and\ failures) = Beta(\alpha , \beta)

這個分佈可以告訴我們根據手裡的資料,我們最大的成功可能性在哪裡,根據C-3PO的先驗資料,在7440次飛行中,只有2人能活下來

,那麼機率密度分佈圖可以畫為

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

先驗的部分就到這裡,接下來我們要考慮主角是漢索羅對我們機率估計的影響(我們的先驗機率估計)。 我們可以給漢索羅的成功率拍一個腦袋,他穿越行星流的成功比率就是20,000/1好了,用Beta分佈就可以畫為:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

接下來我們想辦法將兩者結合得到準確的後驗機率。目前我們已經得到了likehood(C-3PO的歷史資料),以及先驗資料(我們估計的漢索羅的成功率),兩者結合就可以得到後驗機率分佈。 根據上一張末尾提到的,後驗機率與 likelihood和先驗機率是成比例的:

Posterior \propto Likelihood \times Prior

另外,我們可以Likelihood和Prior的Beta分佈直接進行相加結合來直接得到後驗機率的Beta分佈

這裡的原理書中沒講太多

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

套用公式就是:

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

這樣得到了最終的後驗機率分佈,

可以發現結合資訊後,漢索羅真實的成功率在73%左右。

趣學貝葉斯-貝葉斯角度理解先驗及後驗機率 筆記

標簽: 機率  我們  貝葉斯  色盲  後驗