您當前的位置:首頁 > 攝影

如何衡量AB分組的均勻性

作者:由 cold 發表于 攝影時間:2022-09-19

開發一個AB測試系統,可以沒有資料分析模組,但至少得有一個流量分組模組。網上大部分文章講到ab測試與統計原理時都會著墨於結果資料的顯著性分析,但對於最基本的分組演算法也可以藉助一些比較簡單的統計原理來衡量分組結果是否足夠均勻。

長期迭代公司的ab測試系統,被資料分析師質疑最多的是分組貌似不夠均勻,尤其是樣本量較少的實驗,比如框選的目標使用者只有1w人,a組分5200人,b組分4800人,貌似差很多,可奈何樣本量不夠讓頻率收斂於機率呀,我的分組模組核心還是使用md5這類hash演算法來讓每個使用者id能夠均勻地分佈都各個桶中,md5算出的二進位制串每一位上出現1和0的機率是一樣的,結果既能保證分組均勻,也能保證每個使用者每次都被分到相同的分組。如果要嚴格地保證每組人數相同,只能做有狀態的分組了,太重也沒有必要。

這裡倒不是要從演算法的實現層面去倒推結果是否均勻,而是不管你使用md5也好sha-1也好,當你做了多次分組之後,怎麼從分組結果來衡量這個演算法是否合格。主要是資料分析師才懶得關心你程式碼怎麼實現的。。。

如何衡量AB分組的均勻性

方差: 左邊 ≈ 右邊

如何衡量AB分組的均勻性

標簽: 分組  均勻  md5  演算法  模組