您當前的位置:首頁 > 歷史

機率中頻率學派和貝葉斯派簡介

作者:由 三思的韋小寶 發表于 歷史時間:2020-10-14

_機率中頻率方法和貝葉斯方法派簡介

本文主要對機率學習問題中引數估計進行簡要說明。主要對頻率方法和貝葉斯方法進行簡要說明和對比。

1 綱要

機率和統計的關係如下圖:

機率中頻率學派和貝葉斯派簡介

機率論一般研究如果我們有一個機率模型(比如高斯分佈,伯努利分佈等等),以及這個模型的引數,那麼生成的資料是什麼樣子的。

統計學一般研究如果我們得到了一批資料,那麼我們是否可以透過某種“學習”的方法來推測出生成這批資料的模型的引數。引數學習可以幫助我們獲得如下資訊:

對“生成”資料的統計模型的引數進行估計/學習

我們對引數的估計往往包含很多不確定性,所以我們也應該對這種不確定性進行研究。還可以研究如果資料發生變化(比如資料量的增減,或者採用了不同的資料型別),會對引數的估計有什麼影響。

在我們得到機率模型的引數後,我們可以對新的問題進行預測。

在我們得到模型的引數之後,我們還可以改進“試驗”,來產生新的資料。這些資料可以幫助我們修正我們的模型,使得新的模型更加接近真實情況。

2 問題設定

對於統計/學習,我們需要如下兩個要素:

能夠產生資料的“機率模型”:

f_{D|\Theta}(d|\theta)

,其中

\theta

是確定機率模型的引數。換句話說,就是如果已知模型引數,我們可以透過這個機率模型

f_{D|\Theta}(d|\theta)

來計算資料

D

的機率分佈。

機率模型的引數

\theta \in \mathbb{R}^p

(也就是說引數

\theta

p

維的)

我們需要的就是透過資料,對引數

\theta

進行學習。

例1

:如果我們知道一組資料

\textbf{d}=(d^{(1)},\dots,d^{(n)})

,都服從獨立同分布(i。i。d)的正態分佈,正態分佈的引數為

(\mu,\sigma)

。那麼:

f_{D|\Theta}(d|\theta)=\prod_{i=1}^{n}{\frac{1}{\sigma\sqrt{2\pi}}\exp \left( -\frac{(d^{(i)}-\mu)^2}{2\sigma^2} \right)}

例2

: 有

n

個獨立同分布(i。i。d)的試驗,每個試驗成功得機率是

\theta

,那麼現在這組

\textbf{d}=(d^{(1)},\dots,d^{(n)})

,其中成功的試驗數目為

k

, 則資料符合二項分佈,於是有:

f_{D|\Theta}(d|\theta) \propto \theta^k(1-\theta)^{n-k}

3 引數估計框架

頻率方法

:找到引數

\theta

使得觀察到的資料

\textbf{d}

發生的可能性最大。

貝葉斯方法

:在我們觀察到了新資料

\textbf{d}

之後,更新我們對引數

\theta

的認知

P(\theta|d)

機率中頻率學派和貝葉斯派簡介

3。1 頻率估計

頻率方法假定有一個機率模型(model),和對應的引數(parameter

\theta

),所有的資料都是從這個模型生成的。那麼我們要根據觀察到的資料對引數

\theta

進行估計。估計的原則就是對引數

\theta

的估計值

\hat{\theta}

應該使得觀察到的資料

\textbf{d}=(d^{(1)},\dots,d^{(n)})

發生的可能性(likelihood)最大。

頻率方法假定引數

\theta

是確定的,但是資料

d

是根據機率模型產生的,因此是隨機的。所有

d

遵循一定的機率分佈

D

。如果有

n

個獨立同分布的資料

\textbf{d}=(d^{(1)},\dots,d^{(n)})

,那麼有

\textbf{d}

遵循機率分佈

D^n

,也就是

\textbf{d} \sim D^n

如果我們做了

m

次試驗,每次試驗

j

都可以得到

n

組資料

\textbf{d}^{j}=(d^{(1)},\dots,d^{(n)})

:那麼其實我們可以得到

m

個估計值:

\hat{\theta}^j, (j=1,\dots,m)

。那麼我們透過做大量試驗,可以得到我們估計值

\hat{\theta}

的期望。注意到

\hat{\theta}

是基於資料

\textbf{d}=(d^{(1)},\dots,d^{(n)})

計算所的,而

\textbf{d} \sim D^n

,所以我們計算的

\hat{\theta}

\hat{\theta}

在機率分佈

\textbf{d} \sim D^n

的期望。

由此我們也可以計算

\hat{\theta}

相對真實引數

\theta

的偏差:

Bias_{\textbf{d} \sim D^n}[\hat{\theta}(d)]=\mathbb{E}_{\textbf{d} \sim D^n}[\hat{\theta}(d)]-\theta

此外,我們還可以定義

\hat{\theta}

的方差如下:

\mathbb{Var}_{d\sim D^n} [\hat{\theta}(d)]=\mathbb{E}_{d\sim D^n}\left [\left(\hat{\theta}(d)- \mathbb{E}_{\textbf{d} \sim D^n}[\hat{\theta}(d)]\right)^2 \right]

第三點,我們還要研究,當

n \to \infty

時,

\hat{\theta}

的收斂情況

有的估計

\hat{\theta}

可能是無偏的,但是會有較大方差,有的估計則方差較小,但是有偏差。因此,可以提出一個統計量

\mathbb{E} [(\hat{\theta}(d)-\theta)^2]

,來表徵

\hat{\theta}

與真實值

\theta

的差距。

機率中頻率學派和貝葉斯派簡介

上邊推導過程中,利用了

\mathbb{E}_{\textbf{d} \sim D^n}(\hat{\theta})

\theta

是常數的性質,並且注意到

\mathbb{E}[\hat{\theta}-\mathbb{E}[\hat{\theta}]]=0

。因此,可以看出對

\mathbb{E}_{\textbf{d} \sim D^n}[(\hat{\theta}-\theta)^2]

的最佳化其實是對偏差和方差的同時最佳化。

3。2 貝葉斯估計

貝葉斯方法提供了一種根據觀察到的資料對之引數的機率分佈進行更新的方法。

機率中頻率學派和貝葉斯派簡介

其中:

f_{\Theta}(\theta)

是我們根據之前瞭解的資訊

I

(不包括資料

d

)對引數

\theta

給出的(機率分佈)估計。

f_{D|\Theta }(d|\theta )

是“可能性” (likelihood),也就是如果機率模型引數

\theta

已知的話,資料

d

發生的機率。一般也記作

f_{D|\Theta }(d|\theta)=\mathcal{L}(\theta;d)

,在貝葉斯估計中,因為資料

d

是已經觀測到的資料,因此

\mathcal{L}(\theta;d)=\mathcal{L}(\theta)

其實是

\theta

的函式。

f_D(d)

: 往往被稱作“證據”(evidence), 根據全機率公式:

f_D(d)=\int_{\Theta}{f_{D|\Theta }(d|\theta)f(\theta)d\theta}

實際計算中,

f_D(d)

往往很難計算。

類似頻率估計,我們有時候僅僅需要估計一個

\theta

的數值,這時,貝葉斯方法往往給出兩種估計方法:

平均值:

\theta^{mean}=\mathbb{E}_{\theta|d}[\theta]

峰值(maximum a-posteriori):

\theta^{MAP}=argmax_{\theta}f_{\Theta|D}(\theta)

\theta^{mean}

\theta^{MAP}

區別如下圖:

機率中頻率學派和貝葉斯派簡介

對於貝葉斯引數估計的誤差評估,我們往往計算一下兩個變數:

引數的後驗方差

\mathbb{Var}_{\theta|d}(\theta)

引數的可信區間(credible interval)與頻率估計不同,貝葉斯估計假定引數是隨機變數,因此引數可信區間是一個固定的區間。

機率中頻率學派和貝葉斯派簡介

除了對引數

\theta

進行估計,還可以對

#FormatImgID_97# 的函式

,比如

y(\theta)

進行估計:

機率中頻率學派和貝葉斯派簡介