您當前的位置:首頁 > 攝影

商業智慧BI-衡量資料的離散程度

作者:由 東哥在此 發表于 攝影時間:2018-11-13

我們通常使用均值、中位數、眾數等統計量來反映資料的集中趨勢,但這些統計量無法完全反應資料的特徵,即使均值相等的資料集也存在無限種分佈的可能,所以需要結合資料的離散程度。常用的可以反映資料離散程度的統計量如下:

極差(Range)

極差也叫全距,指資料集中的最大值與最小值之差:

商業智慧BI-衡量資料的離散程度

極差計算比較簡單,能從一定程度上反映資料集的離散情況,但因為最大值和最小值都取的是極端,而沒有考慮中間其他資料項,因此往往會受異常點的影響不能真實反映資料的離散情況。

四分位距(interquartile range,IQR)

我們通常使用箱形圖來表現一個數據集的分佈特徵:

商業智慧BI-衡量資料的離散程度

一般中間矩形箱的上下兩邊分別為資料集的上四分位數(75%,Q3)和下四分位數(25%,Q1),中間的橫線代表資料集的中位數(50%,Media,Q2),四分位距是使用Q3減去Q1計算得到:

商業智慧BI-衡量資料的離散程度

如果將資料集升序排列,即處於資料集3/4位置的數值減去1/4位置的數值。四分位距規避了資料集中存在異常大或者異常小的數值影響極差對離散程度的判斷,但四分位距還是單純的兩個數值相減,並沒有考慮其他數值的情況,所以也無法比較完整地表現資料集的整體離散情況。

方差(Variance)

方差使用均值作為參照系,考慮了資料集中所有數值相對均值的偏離情況,並使用平方的方式進行求和取平均,避免正負數的相互抵消:

商業智慧BI-衡量資料的離散程度

方差是最常用的衡量資料離散情況的統計量。

標準差(Standard Deviation)

方差得到的數值偏差均值取平方後的算術平均數,為了能夠得到一個跟資料集中的數值同樣數量級的統計量,於是就有了標準差,標準差就是對方差取開方後得到的:

商業智慧BI-衡量資料的離散程度

基於均值和標準差就可以大致明確資料集的中心及數值在中心周圍的波動情況,也可以計算正態總體的置信區間等統計量。

平均差(Mean Deviation)

方差用取平方的方式消除數值偏差的正負,平均差用絕對值的方式消除偏差的正負性。平均差可以用均值作為參考系,也可以用中位數,這裡使用均值:

商業智慧BI-衡量資料的離散程度

平均差相對標準差而言,更不易受極端值的影響,因為標準差是透過方差的平方計算而來的,但是平均差用的是絕對值,其實是一個邏輯判斷的過程而並非直接計算的過程,所以標準差的計算過程更加簡單直接。

變異係數(Coefficient of Variation,CV)

上面介紹的方差、標準差和平均差等都是數值的絕對量,無法規避數值度量單位的影響,所以這些統計量往往需要結合均值、中位數才能有效評定資料集的離散情況。比如同樣是標準差是10的資料集,對於一個數值量級較大的資料集來說可能反映的波動是較小的,但是對於數值量級較小的資料集來說波動也可能是巨大的。

變異係數就是為了修正這個弊端,使用標準差除以均值得到的一個相對量來反映資料集的變異情況或者離散程度:

商業智慧BI-衡量資料的離散程度

變異係數的優勢就在於作為一個無量綱量,可以比較度量單位不同的資料集之間的離散程度的差異;缺陷也是明顯的,就是無法反應真實的絕對數值水平,同時對於均值是0的資料集無能為力。

其實這篇文章只是對基礎的統計知識的整理,可以從很多資料裡面找到,很多統計學的書裡面都是在“統計描述”章節中介紹這些基礎的統計量,跟均值、中位數、眾數等一起羅列,很少透過統計量的具體應用進行分類,而國外的一些書對知識點的介紹更多的是從實際應用的角度出發的,這裡推薦《深入淺出統計學》這本書,雖然介紹的都是基礎的統計知識,但可讀性比較強,通俗易通,相比國內的一些統計學教程,更容易在大腦中建立起有效的知識索引,在具體應用中能夠更加得心應手。

標簽: 資料  數值  均值  標準差  離散