數理統計(4)-假設檢驗的方法
本次習題課主要介紹檢驗的方法,跟上一次的習題課的關聯非常密切,在這次的總結中會詳細的對比兩節課所學內容的相同和差異。下面是這次習題課的主要內容:
Fisher顯著性檢驗的幾個基本概念
單樣本正態總體引數的顯著性檢驗
雙樣本正態總體引數的顯著性檢驗
假設檢驗和區間估計的關係
單引數指數分佈族的顯著性檢驗
Bernoulli分佈的假設檢驗
似然比檢驗
p-值
例題
Fisher顯著性檢驗的幾個基本概念
原假設和對立假設
設有樣本
知道樣本來自某一個引數分佈族
其中
為引數空間,設
命題
稱為
原假設或者零假設(null hypothesis)
命題
稱為
的
對立假設或者備選假設(altenative hypothesis)
我們關心的假設檢驗問題就是
如果
是單點集那麼我們稱之為
簡單(simple)零假設
,否則就稱為
複雜(composite)或者複合原假設
拒絕域和接受域
我們把樣本空間
劃分成兩個不交的部分
當樣本屬於
時,接受
,那麼
為接受域
當樣本屬於
時,拒絕
,那麼
為拒絕域
兩種錯誤
當
時,而樣本卻落入了拒絕域
,於是我們採取了拒絕
的錯誤決策,這樣的錯誤為
第一類錯誤(type I error)
當
時,而樣本卻落入了接受域
,於是我們採取了接受
的錯誤決策,這樣的錯誤為
第二類錯誤(type II error)
兩種錯誤的關係
第一類錯誤的機率
也記作
第二類錯誤的機率
也記作
我們知道沒有辦法找到一個檢驗使兩種錯誤的機率都儘可能的小。(這裡我簡寫了如果有興趣可以在評論區跟我討論一下)
勢函式
對於一個檢驗方法
其拒絕域為
我們稱
為此檢驗的勢函式
由定義可以看出
當
時,此檢驗犯第一類錯誤的機率為
當
時,此檢驗犯第二類錯誤的機率為
顯著性水平
對於檢驗
和事先給定的
如果其滿足
則稱
使檢驗
的水平或者顯著性水平,也稱
為顯著性水平
的檢驗
求取某假設的顯著性檢驗的步驟如下
根據實際問題,建立假設
選取一個合適的統計量
,使當
成立時,
的分佈已知,且與引數
無關(稱此分佈為統計量
的零分佈)
根據
和
的特點,確定拒絕域
的形狀
對於給定的顯著性水平
,確定拒絕域
由樣本觀測值
,計算統計量
的值
,由
是否屬於
,作出最後判斷
單樣本正態總體引數的顯著性檢驗
單樣本正態總體均值的檢驗
設
為來自
的iid樣本,現在我們感興趣的是其均值
的如下假設:
單樣本正態總體均值的顯著性檢驗
單樣本正態總體方差的檢驗
設
為來自
的iid樣本,現在我們感興趣的是其方差
的如下假設:
單樣本正態總體方差的顯著性檢驗
雙樣本正態總體引數的顯著性檢驗
設
為來自
的iid樣本,設
為來自
的iid樣本,並且全樣本獨立
雙樣本正態總體均值的檢驗
我們感興趣的假設為
雙樣本正態總體均值的顯著性檢驗
其中在最後一種情況下有
雙樣本正態總體方差的檢驗
我們感興趣的假設為
雙樣本正態總體方差的顯著性檢驗
假設檢驗和區間估計的關係
我們以一個雙邊檢驗的例子來說明這兩者之間的關係
對於單樣本正態總體均值的顯著性檢驗,當
時,關於假設
的檢驗統計量為
注意到最後一個式子說明
的置信水平為
的置信區間為
對於單樣本正態總體方差的顯著性檢驗,當
未知時,關於假設
的檢驗統計量為
注意到最後一個式子說明
的置信水平為
的置信區間為
置信水平為
的置信區間與雙邊檢驗有異曲同工之妙
我們可以這樣理解置信區間:當
落在
的置信水平為
的置信區間內時,在顯著性水平
下,我們沒有理由拒絕原假設,對於單側置信限我們也可以用單邊的檢驗去理解。
這裡再附一個之前的筆記作為對照
單引數指數分佈族的顯著性檢驗
首先我們來回顧一下指數分佈族
指數分佈族定義
則由上述定義我們知道單引數指數分佈族可以有如下的表示:
單引數指數分佈族
重要推論
設
是來自單引數指數分佈族的iid樣本,其中
是嚴格增函式,則對任意給定的常數
,
分別是
的非降和非增函式
單引數指數分佈族的假設檢驗
我們感興趣的有三個假設的問題和其第一類錯誤機率的最大值:
由於
是非增函式,則第一類錯誤的最大值為
,我們要求其臨界值c滿足
同理我們要求這裡的臨界值c滿足
對於雙邊假設我們有
Bernoulli分佈的假設檢驗
設
是來自
的iid樣本,則樣本的分佈為:
則此時對於p的顯著性檢驗如下表
其中
似然比檢驗
針對似然比檢驗我們用來檢驗更加一般的內容
似然比統計量
設
是來自
的iid樣本,令
,則我們稱統計量
為似然比統計量
似然比檢驗
似然比統計量
作為檢驗統計量,且取其拒絕域為
時,其中臨界值c滿足
注:如果似然比統計量
的零分佈位置,如果存在一個統計量
關於
是單調的且它的零分佈已知,我們可以給出一個基於
的顯著性檢驗
p-值
為了更好的理解p-值的定義,我們要複習以下的內容:
由上述的內容我們可以得到下面的單邊的p值和雙邊的p值
單邊檢驗的p值
給定樣本觀測值
則
為該檢驗的p值
雙邊檢驗的p值
給定樣本觀測值
則
為該檢驗的p值
p值的意義在於下面這個定理
由這個定理我們可以知道
樣本值
落入水平為
的拒絕域的充要條件是此樣本的p值小於
換句話說p值是可以拒絕原假設的顯著性水平
的最小值
引入p值的最大優點在於,不用事先給定顯著性水平
,只用計算樣本的p值,對於一切大於此p值的
,則拒絕原假設的機率不超過
同時我們還可以知道以下兩點
p值越小,證據越顯著,原假設越荒謬,我們越有理由拒絕原假設
一般來說,當p>0。05時,我們更傾向於接受原假設
例題
單樣本檢驗
原假設為
拒絕域為
由於
則其落入拒絕域,我們可以得到結論:計程車運營不符合常規
雙樣本檢驗
(1)
檢驗
取檢驗統計量
拒絕域為
代入資料
代入題目資料知
則未落入拒絕域,可以接受原假設
(2)
檢驗
取檢驗統計量
拒絕域為
代入資料知
未落入拒絕域,所以不能認為其有顯著性差異
原題
應用
進階
9(1)
的聯合密度為
拒絕域由
確定
9(2)
在
時遞增,在
時遞減
則拒絕域可以化為
9(3)
10 (第九題的直接應用)
我們可以取的檢驗統計量為
可以得到的拒絕域為
代入資料知
則其未落入拒絕域,所以認為沒有顯著差異
26(1)
的聯合密度為
則似然比統計量可以求得
26(2)
則
關於
先增後減,所以拒絕域可以是
26(3)
由9題可知
則原題轉化成
且獨立求
的分佈
取
的聯合密度為
的聯合密度為
可以得出
前面的項為
的密度,後面的項為
的密度
則
似然比檢驗的應用
的聯合密度為
在
下,求
解得
可以求出似然比統計量為
令
則有
所以拒絕域可以表示為
由於
則
的聯合密度函式為
由於
則
的聯合密度函式為
由
可以得出
令
則可以得到
即得證