回爐重造 描述統計分析
【什麼是描述統計學?】
定義
[1]
:
描述統計學(descriptive statistics)是研究如何取得反映客觀現象的資料(data tabulation),並透過圖表形式對所蒐集的資料進行加工處理和顯示(data visualisation),進而透過綜合概括與分析(statistical summaries)得出反映客觀現象的規律性數量特徵的一門學科。
我的理解
:統計學是透過收集大量的資料/數字,從大量資料中找規律。單純的資料是抽象的,難以理解的和比較的。描述統計學,從收集的大量資料圖形化/視覺化,可以更直觀的瞭解資料,從而用資料解釋問題。
描述資料集常用的4個指標:
1.平均值(算數平均值):
優缺點:簡單計算,但是有異常極值出現時候,平均值是不準確的。例如,被平均的收入。
2.四分位數
[2]
:
四分位數(Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。
優點:從整體描述資料集的分佈狀態
缺點:無法分析資料集的波動大小
如何計算:第一步:求中位數Q2;第二步:求下四分位數 Q1,上四分位數Q3
【實踐】:可以使用Excel中的QUARTILE 函式 計算四分位數的數值;
四分位數應用:1。 箱線圖 ; 2。識別出可能的異常值, 對異常值進行檢查和處理
1)箱線圖: 使用python繪製箱線圖(現在我還不會使用python,記錄為今後學習補充的技能之一);
2)識別出可能的異常值:tukey‘s test方法
最小估計值:Q1-k(Q3-Q1)
最大估計值:Q3-k(Q3-Q1)
k=1。5 中度異常
k=3極度異常
3.標準差
[3]
:波動大小
標準差公式
標準差的單位是:計算資料的單位
標準差大小的好壞:標準差越大,波動越大,例如,1。 QA的控制:標準差越小越好,說明質量控制的好,良品率高;2。 薪資:標準差越大越好,說明工資有起伏;
案例:股票波動大小,平均收益相同時,標準差越大,風險越大;
夏普比率的應用
4. 標準分:表示某個數值距離平均值多少個標準差
等於0,等於平均值;
大於零,大於平均值;
小於零,小於平均值;
案例:質量控制,6西格瑪
【熟悉資料集】
選擇的資料集:天貓淘寶購買嬰兒商品的使用者的資料集;分別為
表1購買商品和表2嬰兒資訊。
資料集來源:
[表一]
資料集共有29971條資訊記錄,共有7個欄位,分別為:
user_id:使用者id,對應淘寶天貓註冊使用者的id。是使用者的唯一識別碼,任何一個註冊使用者的id都是不重複的,如果user_id相同,可以認為是同一個使用者;
auction_id:購買行為編號,是使用者購買行為的唯一識別碼;
cat_id:商品種類ID,例如母嬰用品分類,可能有奶粉/輔食,孕媽專區;餵養洗護;童車/床/出行;玩具;童鞋。可以分析哪一類產品最受歡迎;
cat1:商品屬於哪個類別,是商品種類的細分類別,可以分析最受歡的商品種類id中,哪個子類別最受歡迎。例如,奶粉/輔食,可能分為牛奶粉,羊奶粉,米糊,磨牙棒,果泥,維生素等;
property:商品屬性,一個商品基本引數規格,例如,奶瓶的商品屬性為品牌,系列,使用年齡,材質,形狀,產地,顏色,奶瓶是否帶柄,容量,口徑大小。對於分析天貓淘寶使用者行為意義不大;如果對於一個店鋪,細分使用者對於同種商品不同規格的選擇的購買行為,可以幫助店鋪提高採購庫存數的精確性;
buy_mount:購買數量,商品的購買數量;
day:購買時間,從格式看是年,月,日。可以分析,哪個時間段哪個商品更受歡迎,可以結合季節和折扣促銷活動來分析。
【表二】資料集共有953條資訊記錄,共有3個欄位,分別為:
user_id:使用者id,淘寶天貓使用者的唯一識別的id,可以與表一匹配資料;
birthday:出生日期,可以換算成嬰兒年齡,可以分析各年齡段的使用者行為,哪個年齡的寶寶下單最多;統一年齡的寶寶,下單哪類商品最多;是否下單和年齡有關;
gender:性別(0 男性;1 女性),可以分析不同性別寶寶家長的購買行為;同一類商品下單資料中,男性寶寶多,還是女性寶寶多。
【你想從該資料集中得到哪些描述統計資訊?】
購買數量的平均值,四分位數,標準差;
寶寶年齡的平均值,四分位數,標準差;
購買時間的標準差:研究購買時間是否波動;
【從該資料集中分析哪些業務問題?】
不同性別的寶寶使用者購買偏好?欄位選擇:user_id,gender,buy_mount,cat_id
不同年齡的寶寶使用者購買偏好?欄位選擇:user_id,age,buy_mount,cat_id
哪一類商品最受歡迎?欄位選擇:cat_id,buy_mount
同類商品,不同子分類那一類更受歡迎?欄位選擇:
什麼時間段使用者更喜歡下單?欄位選擇:day,buy_mount
哪類商品分別在什麼時間下單最多?欄位選擇:day,buy_mount,cat_id
感謝live課程:
參考
^
描述統計學定義
https://baike。baidu。com/item/%E6%8F%8F%E8%BF%B0%E7%BB%9F%E8%AE%A1%E5%AD%A6
^
四分位數
https://baike。baidu。com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B0
^
標準差
https://baike。baidu。com/item/%E6%A0%87%E5%87%86%E5%B7%AE
上一篇:人像攝影的10個構圖方法