您當前的位置:首頁 > 文化

如何科學設計和評估一次AB測試

作者:由 一半明白一半混亂 發表于 文化時間:2021-12-05

為什麼要做ab測?

場景A

小明作為產品運營在新版本自信滿滿的上線了一個功能,結果版本釋出後線上留存大跌,給產品帶來了重大損失

場景B

小明和小紅在新版本同時上線了2個活動,釋出後線上留存大漲,他們都認為是自己的活動提高了留存,兩個人爭執不休

AB測核心價值:

1、降低風險。能夠切出小部分使用者去做實驗,避免主觀決策的不確定性導致的損失

2、準確評估影響。變數的唯一性讓我們可以準確的評估改動帶來的影響

AB測試原理

AB測的核心原理就是

假設檢驗

假設檢驗,就是檢驗我們提出的假設是否正確,對於無法正面驗證的情況進行推斷;對應到AB測試中,就是檢驗實驗組和對照組的指標是否有

顯著差異

假設檢驗利用的是

小機率原理

,小機率原理是指發生機率很小的隨機事件在一次實驗中幾乎是不可能的,如果這個小機率事件發生了,則說明假設不成立

AB測試環節

如何科學設計和評估一次AB測試

一、提出假設

實驗一定是有目的的,沒有目的的實驗是沒有價值的

確定當前最關鍵的改進點,明確改進的目標,提出原假設與備擇假設,二者互斥

原假設:一般是希望透過實驗結果推翻的假設

備擇假設:希望透過實驗得到肯定的假設

二、選取核心/觀察指標

選擇度量實驗結果的指標:核心指標+觀察指標

核心指標:實驗直接作用的指標

觀察指標:用來判斷實驗有沒有其他影響

三、核算最小樣本量,確定實驗週期

原則:

不能太多,也不能太少

太少:實驗組的結果受個體極端值的影響會很大,最終可能導致異常的結果

太多:萬一有嚴重負向,影響到的受眾會太多,造成不可挽回的損失

計算最小樣本量

根據指標以及預期提升的幅度來定

【相關連結

https://

zhuanlan。zhihu。com/p/14

8760397

如何科學設計和評估一次AB測試

nA代表A組的樣本數量,nB代表B組的樣本數量。

K為nA與nB的比值,這個值一般情況下,我們都預設為1,即AB兩組的使用者數量相等,方便做嚴謹的AB實驗對比

顯著性水平(α):顯著性水平越低,對實驗結果的要求也就越高,越需要更大的樣本量來確保精度,一般取0。05

統計功效(1 – β):統計功效意味著避免犯二類錯誤的機率,這個值越大,需要的樣本量也越大,一般我們期待並設定的最低的統計功效值為80%

均值差異(μA-μB):如果兩個版本的均值差別巨大,也不太需要多少樣本,就能達到統計顯著

標準差(σ):標準差越小,代表兩組差異的趨勢越穩定。越容易觀測到顯著的統計結果

舉例:參考最近3次郵件召回情況,目前召回率是1。42%,如果要提升20%,也就是1。71%,代入公式,需要2。7w的樣本量

相應的,最小樣本量有了,我們切分了流量,知道了實驗桶一天大概能有多少樣本量。我們直接用 最小樣本量 / 實驗桶天均流量 即可以得到相應的實驗週期。

四、流量分割,確認實驗/對照使用者群體

原則:

1、均勻切割使用者群體,保證兩組樣本在各個維度的表現相似,目的是排除使用者差異對實驗結果的影響

屬性:平臺、包體、渠道來源、註冊時間

行為:付費、活躍、留存等

2、避免多個實驗人群交叉

如何保證?演算法輔助

五、選擇合適的檢驗方式

z檢驗:樣本量較大(>30),總體方差未知,服從正態分佈,適合判斷兩個均值是否差異顯著

t檢驗:樣本量較小(<30),總體方差未知,服從正態分佈,t檢驗樣本量擴大就成了z檢驗,適合判斷兩個均值是否差異顯著

卡方檢驗:用以檢驗實際觀測值與理論推斷值得偏離程度,適合比值類指標,如註冊率,付費率

六、實驗評估

判斷樣本是否具有方差齊性,排除異常值

判斷p值與顯著性水平α的大小

如果p值 < α(顯著水平,一般定為5%),說明錯誤拒絕原假設的機率很低,我們有就理由相信原假設本身就是錯誤的,則拒絕原假設,表明實驗結果顯著

如果結果不顯著,考慮資料量是不是太少、異常值或者實驗結論就是如此,需重新最佳化方案

如果結果顯著,再結合指標均值變化幅度以及輔助指標的表現來評估,有條件的情況下還要觀察長線影響

ps。需要觀測指標到穩定狀態後, 再做評估。不能根據一兩天的資料表現去下結論

一些概念:

1、兩類錯誤:

α錯誤:原假設為真,卻被我們拒絕了

β錯誤:原假設為偽,卻被我們接受了

對於一定的樣本量n,不能同時做到犯這兩類錯誤的機率都很小,相互影響,如果減少α錯誤,就會增大犯β錯誤的機會。

比如:為了減少α錯誤,為了避免很多假設是真的被我們拒絕,我們就會擴大接受的範圍,寬容度更高,以前召回率要到1。71%才算顯著,現在到1。6%就算顯著,我們去拒絕原假設的機率變低了,不會輕易的拒絕原假設,那麼犯β錯誤的機率就會提升,就會接受很多不為真的假設

那該怎麼控制這兩種錯誤?

依據:哪種錯誤更嚴重,就應當把哪一類錯誤作為首要控制目標。

2、顯著性水平α:

是在原假設為真時拒絕原假設的機率,就是犯α錯誤的機率。

通常取α=0。05,當做出接受原假設的決定時,正確的機率為95%。如果一件事情發生的機率小於5%,則為小機率事件。

3、p值:

p值是什麼

:原假設為真時,得到樣本觀察結果或更極端結果出現的機率。用來判斷原假設是否成立的依據

p值不是什麼

:不是原假設為真的機率,不能根據p值大小去判斷實驗效果大小

如何計算

:手工計算比較複雜,一般用計算機計算(excel函式NORMSDIST)

一般用P值與顯著性水平α對比。P值越小,我們拒絕原假設的理由越充分

如何科學設計和評估一次AB測試

標簽: 假設  樣本量  實驗  機率  錯誤