BE03: 貝葉斯估計與顯著性檢驗(上)
在上一篇文章中,我們以扔硬幣為例,熟悉了貝葉斯法則的運作過程。如果各位看官還不是很瞭解貝葉斯推斷的意義以及貝葉斯法則的數學原理,建議先讀一讀之前的文章。看完了上一篇文章,我猜測大家都很關心一個問題:如何檢驗一枚硬幣是否質地均勻呢?這篇文章,就來從兩種檢驗方式回答這個問題。
一、零假設顯著性檢驗(Null hypothesis Significance Testing)
我們想探究某一枚硬幣是否質地均勻,決定扔10次(
),記錄正面向上的次數。設這枚硬幣正面向上的機率為
,顯著性檢驗第一步,寫出兩個假設:
第二步,找到樣本分佈。
樣本分佈是顯著性檢驗的核心,
如果我們找不到樣本分佈,我們就無法進行顯著性檢驗。在這個問題中,我們在意的是樣本分佈是
的機率分佈,其中,
表示扔硬幣的總次數,
表示正面向上的次數,而
表示透過樣本計算出的
的
估計值
。
是我們固定好的,等於10,所以,我們只要寫出
的機率分佈,我們就能知道
的機率分佈。零假設中,我們認為硬幣正面朝上的機率是0。5,那麼扔了10次,
的機率分佈就是:
圖1:m的機率分佈(因為小數太長,所以只保留了四位小數)
這張圖的意思是:
當
時,
扔10次硬幣,0次正面向上的機率是0。001,其中有1次正面向上的機率是0。0098,其中有2次正面向上的機率是0。0439,以此類推。所以,
的機率分佈,即樣本分佈就是:
圖2:樣本分佈
請大家注意,圖2和圖1的唯一區別就是橫座標的值和含義,圖1是
的取值,而圖2是
的取值。
我們主觀設定,當一件事發生的機率小於0.05時,這個事件就不可能發生。
(是不是覺得有點扯?但這恰恰是顯著性檢驗邏輯的核心。)
在這個硬幣的例子中,從圖2可知,
當
時
,樣本估計值
等於0、0。1、0。9 或 1的機率是
,這是一個“不可能事件”。
如果“不可能事件”真的發生了,這就意味著
。
第三步:計算樣本估計值。我們扔了10次硬幣,假設觀察到的結果是
,即
。由此我們估計這枚硬幣正面朝上的機率
。天吶,我們認為的“不可能事件”真的發生了!那麼真相只有一個——這枚硬幣正面朝上的機率不是0。5!即拒絕
。
如果,我們觀察的結果是
,即
,由此我們估計
,而從圖二可以得知,
的機率是 0。1719,這並不是我們定義的“小機率”事件,所以我們依舊認為,硬幣正面朝上的機率等於0。5,即接受
。
二、貝葉斯估計(Bayesian estimation)
“估計”是統計學中最基礎的概念之一,指的是透過樣本統計量“估計”總體引數的值。例如,一枚硬幣正面朝上的機率是一個引數,為了得到這個引數的值,我扔了10次硬幣,發現有9次結果都是正面朝上,佔總次數的90%,於是我推斷,這枚硬幣正面朝上的機率即為0。9。
當然,這是頻率學派的引數估計手段之一,接下來才是本文的重頭戲:貝葉斯估計。正如之前的文章所講,貝葉斯法則的核心是先驗機率和似然性。我們這裡先把這兩個東西講透徹。
似然性是什麼?
似然性是對資料的機率描述。
例如,我們扔了5次硬幣,結果為
。設硬幣正面朝上的機率為
,那麼出現這個結果的機率就是:
這就是似然性。
我們注意到,似然性中有一個引數
,取值範圍是
,那麼關於
的取值,就有一個機率分佈,這個機率分佈,就是先驗分佈。所以,
先驗分佈是似然性中引數取值的機率分佈。
在上一篇文章中,
的先驗分佈是離散的,在本文中,我們來考慮一個稍微複雜一點的先驗分佈:
圖3:先驗分佈
嗯,其實也不是很複雜,就是一個
之間的均勻分佈。
和上文中的第一個例子一樣,我們扔了10次硬幣,觀察到的結果是
,則似然性為:
由此我們就可以計算出
的後驗機率分佈(工具為pyMC3):
圖4:後驗機率分佈
這個圖看起來崎嶇不平,這是因為後驗機率分佈是透過MCMC隨機抽樣得到的,使用MCMC的原因請參考上一篇文章。
這張後驗分佈圖上還有幾個標記的資訊,我們分別介紹一下:
mean=0。83 的意思是:後驗分佈的均值是 0。83;
HPD 是 Highest Posterior Density 的縮寫,又稱為 Highest Density Interval (HDI)。我們知道,機率密度之和為1。如果給定機率密度的一部分,例如0。95,那麼HPD指的是:後驗機率分佈中,覆蓋這一部分的最短區間。例如,在上圖的後驗分佈中,我們可以找到一段區間,使得這段區間內的機率密度為 0。95。事實上,我們可以找到無數個滿足條件的區間,而
這段區間,是所有滿足條件區間中最短的一個,我們稱其為 95% HPD;
我們在圖中還標出了
的位置,而 0。6% < 0。5 < 99。4% 的意思是說:在後驗分佈中,
的機率是99。4%,
的機率是0。6%。
從上圖的結果可知,
沒有落在HPD中,且
的機率超過0。99。所以我們十分有底氣地認為,透過扔硬幣實驗可以證明,這枚硬幣並不是質地均勻的。
三、總結一下
綜上所述,與顯著性檢驗相比,貝葉斯估計的優勢包括:
不用算樣本分佈。推算樣本分佈是顯著性檢驗的基本功,如果能力有限,無法推算出樣本分佈,也就沒有辦法做顯著性檢驗了。而與推算樣本分佈相比,確定似然性和先驗分佈則輕鬆許多;
貝葉斯估計更加直接。顯著性檢驗要“僵硬地”設定一個小機率事件,而貝葉斯估計能夠直接給出引數的機率分佈,零假設在機率分佈中的位置一目瞭然;
貝葉斯估計能夠給出更多的資訊 (Kruschke & Liddell, 2018)。與一個簡單的
p
值相比,後驗分佈能夠告訴研究者最佳的引數估計值(例如上例中的 0。83)、引數的不確定性(HPD區間)以及引數所有取值的可能性。
當然,本文中的例子依舊是一個扔硬幣的問題,而在科學研究中,我們更關心均值的差異。下一篇文章,我們就來看看如何用貝葉斯估計代替
t
檢驗。
參考文獻
Kruschke, J。 K。, & Liddell, T。 M。 (2018)。 The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis, and power analysis from a Bayesian perspective。
Psychonomic Bulletin and Review
,
25
(1), 178–206。
https://
doi。org/10。3758/s13423-
016-1221-4