您當前的位置:首頁 > 攝影

回爐重造 描述統計分析

作者:由 小龍蝦我不怕辣 發表于 攝影時間:2019-11-15

【什麼是描述統計學?】

定義

[1]

描述統計學(descriptive statistics)是研究如何取得反映客觀現象的資料(data tabulation),並透過圖表形式對所蒐集的資料進行加工處理和顯示(data visualisation),進而透過綜合概括與分析(statistical summaries)得出反映客觀現象的規律性數量特徵的一門學科。

我的理解

:統計學是透過收集大量的資料/數字,從大量資料中找規律。單純的資料是抽象的,難以理解的和比較的。描述統計學,從收集的大量資料圖形化/視覺化,可以更直觀的瞭解資料,從而用資料解釋問題。

描述資料集常用的4個指標:

1.平均值(算數平均值):

優缺點:簡單計算,但是有異常極值出現時候,平均值是不準確的。例如,被平均的收入。

2.四分位數

[2]

四分位數(Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。

優點:從整體描述資料集的分佈狀態

缺點:無法分析資料集的波動大小

如何計算:第一步:求中位數Q2;第二步:求下四分位數 Q1,上四分位數Q3

【實踐】:可以使用Excel中的QUARTILE 函式 計算四分位數的數值;

四分位數應用:1。 箱線圖 ; 2。識別出可能的異常值, 對異常值進行檢查和處理

1)箱線圖: 使用python繪製箱線圖(現在我還不會使用python,記錄為今後學習補充的技能之一);

2)識別出可能的異常值:tukey‘s test方法

最小估計值:Q1-k(Q3-Q1)

最大估計值:Q3-k(Q3-Q1)

k=1。5 中度異常

k=3極度異常

3.標準差

[3]

:波動大小

回爐重造 描述統計分析

標準差公式

標準差的單位是:計算資料的單位

標準差大小的好壞:標準差越大,波動越大,例如,1。 QA的控制:標準差越小越好,說明質量控制的好,良品率高;2。 薪資:標準差越大越好,說明工資有起伏;

案例:股票波動大小,平均收益相同時,標準差越大,風險越大;

夏普比率的應用

4. 標準分:表示某個數值距離平均值多少個標準差

等於0,等於平均值;

大於零,大於平均值;

小於零,小於平均值;

案例:質量控制,6西格瑪

【熟悉資料集】

選擇的資料集:天貓淘寶購買嬰兒商品的使用者的資料集;分別為

表1購買商品和表2嬰兒資訊。

資料集來源:

[表一]

資料集共有29971條資訊記錄,共有7個欄位,分別為:

user_id:使用者id,對應淘寶天貓註冊使用者的id。是使用者的唯一識別碼,任何一個註冊使用者的id都是不重複的,如果user_id相同,可以認為是同一個使用者;

auction_id:購買行為編號,是使用者購買行為的唯一識別碼;

cat_id:商品種類ID,例如母嬰用品分類,可能有奶粉/輔食,孕媽專區;餵養洗護;童車/床/出行;玩具;童鞋。可以分析哪一類產品最受歡迎;

cat1:商品屬於哪個類別,是商品種類的細分類別,可以分析最受歡的商品種類id中,哪個子類別最受歡迎。例如,奶粉/輔食,可能分為牛奶粉,羊奶粉,米糊,磨牙棒,果泥,維生素等;

property:商品屬性,一個商品基本引數規格,例如,奶瓶的商品屬性為品牌,系列,使用年齡,材質,形狀,產地,顏色,奶瓶是否帶柄,容量,口徑大小。對於分析天貓淘寶使用者行為意義不大;如果對於一個店鋪,細分使用者對於同種商品不同規格的選擇的購買行為,可以幫助店鋪提高採購庫存數的精確性;

buy_mount:購買數量,商品的購買數量;

day:購買時間,從格式看是年,月,日。可以分析,哪個時間段哪個商品更受歡迎,可以結合季節和折扣促銷活動來分析。

【表二】資料集共有953條資訊記錄,共有3個欄位,分別為:

user_id:使用者id,淘寶天貓使用者的唯一識別的id,可以與表一匹配資料;

birthday:出生日期,可以換算成嬰兒年齡,可以分析各年齡段的使用者行為,哪個年齡的寶寶下單最多;統一年齡的寶寶,下單哪類商品最多;是否下單和年齡有關;

gender:性別(0 男性;1 女性),可以分析不同性別寶寶家長的購買行為;同一類商品下單資料中,男性寶寶多,還是女性寶寶多。

【你想從該資料集中得到哪些描述統計資訊?】

購買數量的平均值,四分位數,標準差;

寶寶年齡的平均值,四分位數,標準差;

購買時間的標準差:研究購買時間是否波動;

【從該資料集中分析哪些業務問題?】

不同性別的寶寶使用者購買偏好?欄位選擇:user_id,gender,buy_mount,cat_id

不同年齡的寶寶使用者購買偏好?欄位選擇:user_id,age,buy_mount,cat_id

哪一類商品最受歡迎?欄位選擇:cat_id,buy_mount

同類商品,不同子分類那一類更受歡迎?欄位選擇:

什麼時間段使用者更喜歡下單?欄位選擇:day,buy_mount

哪類商品分別在什麼時間下單最多?欄位選擇:day,buy_mount,cat_id

感謝live課程:

參考

^

描述統計學定義

https://baike。baidu。com/item/%E6%8F%8F%E8%BF%B0%E7%BB%9F%E8%AE%A1%E5%AD%A6

^

四分位數

https://baike。baidu。com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B0

^

標準差

https://baike。baidu。com/item/%E6%A0%87%E5%87%86%E5%B7%AE

標簽: id  標準差  資料  使用者  四分