充分統計量

作者：由 Dyn98 發表于寵物時間：2020-07-26

在首次看到充分統計量的數學定義的時候，說實話我是有點懵逼的，但其實這個東西他一點都不復雜，只是被數學的嚴謹性定義包裝的有點晦澀，因此我們希望從比較通俗能懂、直觀立體的角度來解釋一下這究竟是個什麼東西。

一、定義和理解

首先搬出他的嚴謹定義：

定義1:

如果樣本

在已知統計量

取值時的條件分佈與

$\theta$

無關，則稱統計量

是

$\theta$

的

充分統計量

（sufficient statistic）。

定義有了，下面我們來詳細說說這個定義到底說了個啥。

任意一個統計量

實際上都定義了一種資料簡化方式。假設我們抽取的樣本為

$\tilde{X}=\left(X_{1}, ..., X_{n}\right)$

，其樣本空間為

$\mathcal{H}=\left\{\left(x_{1}, ..., x_{n}\right): x_{i}\in\mathbb{R}, i=1,...,n\right\}$

。依據統計量簡化樣本資料可以看成樣本空間

$\mathcal{H}$

上的一個劃分：

$\mathcal{H}=\bigcup_{i}\mathbf{H}_{i},\ \ \ \text{其中}\mathbf{H}_{i}=\{(x_{1},...,x_{n}):T(x_{1},...,x_{n})=t_{i}\}$

顯然

$\{t_{i}\}$

將樣本空間劃分成了若干集合

$\mathbf{H}_{i}$

。學過運籌或者線代的同學可能已經發現了，如果

是一個線性對映的話，

$T(x_{1},...,x_{n})=t_{i}$

不就是空間超平面嗎，至此，我們就建立對於充分統計量的一個空間直觀印象。

然後我們再瞅一眼定義：

“如果樣本

在已知統計量

取值時的條件分佈與

$\theta$

無關”

這個無關有另外一種空間上的理解，僅供拓展參考：

另外的理解:

在統計量確定並已知取值的情況下（換句話說，即

在樣本空間已經被統計量劃分好且我們知道目前處於哪個子空間

），

我們用這個樣本空間內的樣本去估計

$\theta$

得到的結果是一樣的

。

而

充分性原理

其實說的也是這個意思：

引數

$\theta$

的一個充分統計量在某種意義上上提煉了樣本中有關

$\theta$

的全部資訊。如果

是

$\theta$

的一個充分統計量，則

$\theta$

的任意依賴樣本

的推斷都可以經由

完成，即，如果

$\boldsymbol{x}$

和

$\boldsymbol{y}$

是滿足

$T(\boldsymbol{x})=T(\boldsymbol{y})$

的兩個樣本點，則不論觀測到的是

$X=\boldsymbol{x}$

還是

$X=\boldsymbol{y}$

，關於

$\theta$

的推斷都完全相同。

大家可以品一品這個和

另外的理解

中我們用空間來形象表達的是不是同一個意思：）

二、如何判別充分統計量

定理1:

設

$p(\boldsymbol{x}|\theta)$

為樣本

的

聯合

機率密度函式，

$q(t|\theta)$

為

的機率密度函式，如果對樣本空間中的任意

$\boldsymbol{x}$

，比值

$p(\boldsymbol{x}|\theta)/q(T(X)|\theta)$

都是

$\theta$

的常函式，則

是

$\theta$

的充分統計量。

例1(二項充分統計量):

設

$X_{1},...,X_{n}$

是引數為

$\theta$

，

$0<\theta<1$

的Bernoulli隨機樣本，試證明

$T(X)=X_{1}+...+X_{n}$

是

$\theta$

的統分統計量。

證明過程：

根據

定理1

我們只需要證明

$p(x|\theta)/q(T(X)|\theta)$

是

$\theta$

的常函式。注意到

代表了做

次獨立實驗後取值為

的

$X_{i}$

的數目，所以

服從引數為

$(n,\ \theta)$

的二項分佈，所以

$\begin{aligned} \frac{p(\boldsymbol{x} \mid \theta)}{q(T(\boldsymbol{x}) \mid \theta)} &=\frac{\prod\left.\theta^{x_{i}}(1-\theta)^{1-x_{i}}\right.}{\left(\begin{array}{c} n \\ t \end{array}\right) \theta^{t}(1-\theta)^{n-t}} \\ &=\frac{\theta^{\sum x_{i}}(1-\theta)^{ \sum\left(1-x_{i}\right)}}{\left(\begin{array}{c} n \\ t \end{array}\right) \theta^{t}(1-\theta)^{n-t}} \\ &=\frac{\theta^{t}(1-\theta)^{n-t}}{\left(\begin{array}{c} n \\ t \end{array}\right) \theta^{t}(1-\theta)^{n-t}} \\ &=\frac{1}{\left(\begin{array}{c} n \\ t \end{array}\right)} \\ &=\frac{1}{\left(\begin{array}{c} n \\ \sum x_{i} \end{array}\right)} \end{aligned}\\$

第一個等號右邊的分子是樣本的

聯合

機率密度函式，我們在極大似然估計中經常可以看到，分母是

$T(X)\sim binomial(n,\ \theta)$

的機率密度函式。可以看到分子分母中關於

$\theta$

的項都可以約掉，即，統計量

的分佈在估計引數

$\theta$

時可以完全替代

樣本聯合分佈

。

定理2(因子分解定理):

設

$f(\boldsymbol{x}\mid \theta)$

為樣本

的聯合機率密度函式，統計量

是

$\theta$

是充分統計量當且僅當存在函式

$g(t\mid \theta)$

和

$h(\boldsymbol{x})$

使得對任意樣本點

及其引數

$\theta$

，都有

$f(\boldsymbol{x}\mid \theta)=g(T(X)\mid \theta)h(\boldsymbol{x}).\\$

其實仔細的同學可能已經發現了，上面這個式子把

$g(T(X)\mid \theta)$

除到左邊不就是

定理1

說的東西嘛，那還要提這個

因子分解定理幹嘛

？

因子分解定理

的

優勢

是：在運用

定理1

時我們必須首先猜測充分統計量

的形式，這一步往往需要憑藉很好的直覺，但是藉助因子分解定理我們只需簡單考察樣本機率密度函式加上一些技巧就可以求得充分統計量。

例2(二項充分統計量-續):

$p(\boldsymbol{x} \mid \theta)=\prod\left.\theta^{x_{i}}(1-\theta)^{1-x_{i}}\right.=\theta^{\sum x_{i}}(1-\theta)^{ n-\sum x_{i}}*1\\$

上式中

$h(\boldsymbol{x})=1$

顯然與

$\theta$

無關，而另一個因子

$g(T(\boldsymbol{x})\mid \theta)=\theta^{\sum x_{i}}(1-\theta)^{ n-\sum x_{i}}$

僅透過樣本和

$T(\boldsymbol{x})=t=x_{1}+...+x_{n}$

與樣本

關聯，即，

$g(t\mid \theta)=\theta^{t}(1-\theta)^{ n-t}$

，因此根據因子分解定理可知

$T(X)=X_{1}+...+X_{n}$

是

$\theta$

的充分統計量。

例3(均勻充分統計量):

設隨機樣本

$X_{1},...,X_{n}$

取自在

$1,...,\theta$

上的離散均勻分佈的總體，引數

$\theta$

是正整數，則

$X_{i}$

的機率密度函式為：

$f(x \mid \theta)=\left\{\begin{array}{ll} \frac{1}{\theta} & x=1,2, \cdots, \theta \\ 0 & \text { 否則 } \end{array}\right.\\$

$X_{1},...,X_{n}$

的聯合機率密度函式為

$f(\boldsymbol{x} \mid \theta)=\left\{\begin{array}{ll} \frac{1}{\theta ^{n}} & x_{i}\in \{1,\cdots,\theta\};i=1, \cdots, n \\ 0 & \text { 否則 } \end{array}\right.\\$