您當前的位置:首頁 > 文化

資料分析方法的應用

作者:由 會蹬腿的小豆子 發表于 文化時間:2019-11-27

分析背景

該資料分析借鑑的的背景資料來源於天池資料集,為2012年7月2日至2015年2月5日發生在淘寶天貓交易平臺關於嬰幼兒商品的交易資料(資料集連結)。其中包括兩個表格,截圖如下:

資料分析方法的應用

資料分析方法的應用

涵括的欄位有使用者ID,交易編號,商品種類ID,商品類別,購買數量,購買日期,以及使用者人為提供的個人資訊如嬰兒出生日期以及性別。欄位含義解讀如下:

使用者ID:以電商行業的購買資料為例,使用者ID是電商平臺識別該購買者的唯一資訊。從使用者ID可以得到其他資訊包括註冊資訊,購物歷史記錄,購物喜好等。

購買行為編號:我理解為交易號,透過這個號碼可以查詢到購買的具體事物,數量,購買行為產生日期,購買者或者需求者的位置。

商品種類ID:該電商平臺繼而又把每個類別下的產品細分了種類,即被購買產品屬於該電商平臺規定的某個類別的某個種類下面,並賦予每個種類一個ID。

商品類別:該電商平臺把產品分成了很多個種類。

商品屬性:即產品的詳細情況

購買數量和購買時間即是字面意思

出生日期:記錄的是該使用者註冊時填寫的自己或者需求者的嬰兒的出生日期

性別:即字面意思

分析目的

該分析旨在透過以往的資料總結以前的銷售表現,找出需要改變及改善的地方,針對性採取有效措施以達到提升營業額的效果。

提出問題

1。 2015年的銷售下跌

2。 第三,四季度銷量上漲的原因

3。 性別對銷量的影響

4。 年齡與銷量的關係

分析思路

資料分析方法的應用

分析問題

由於整個分析過程都涉及到銷量,所以在開始分析之前首先對購買量進行資料清洗。篩選購買量這一列可以發現,資料區間跨度非常大,對其作描述性統計發現,購買量的平均值不到3,標準差為65左右。

資料分析方法的應用

剔除與平均值的偏差超過三倍標準差的高度異常值,即大於199。64的數值都需要剔除。因為商品的單位不可能為小數,所以實際應剔除大於199的值。

1。2015年的銷量下跌

分析流程是這樣的:

資料分析方法的應用

對購買量進行多維度拆解:購買量=新使用者購買量+老使用者購買量

新使用者為首次出現,以前沒有過購買行為的使用者id,老使用者為以前有過購買行為(重複的)的使用者id。

透過查詢重複值得知老使用者為27個,佔比為27/28396=0。93%,不到1%。換句話說,總購買量幾乎全是由佔比大於99%的新使用者造成的,因此在這裡我們忽略老使用者的購買量。而且,從以往的銷量折線圖可以看出,2015年資料下跌是因為資料集裡關於這一年的資料不全,只有1月和2月的資料。

假設在這一年裡頭兩個月銷量下跌,找出2015年的銷售資料,同比歷年的資料,來判斷是否假設是對的。

資料分析方法的應用

由於2012年缺乏上半年的資料,因此我們只能對比2013,2014和2015年銷量。從圖中可以看出,2015年1月銷量大幅高於2013和2014年,2月銷量低於前兩年,但總和並不少於前兩年。所以依據當前的資料不能證明2015年銷量下跌,假設不成立。

2。第三,四季度銷量上漲的原因

分析流程如下:

資料分析方法的應用

假設下半年銷量上漲是因為所有類別銷量上漲。我們提取各個季度各商品類別的銷量資料,得到下圖。

資料分析方法的應用

從上圖可以看出,第一二季度銷量基本持平,第三季度的銷量主要是由類別5008168,和28帶來的,其他類別沒有明顯變化。第四季度銷量主要是由類別50014815,28帶來的,其他類別差別不大。所以可以說季度銷量的上升是由於某個季度某些商品類別的銷量上漲導致的。

再來深究為什麼第三季度和第四季度的銷量主要貢獻者類別5008168和50014815會在下半年出現大幅度增長。

首先從類別5008168開始。蒐集第三季度銷量資料可以得到下圖。

資料分析方法的應用

從圖中可以看到,7-9月期間大部分時間銷量都是比較平穩,唯獨9月20日這天該產品的銷量達到了2815。進一步蒐集資料發現,是因為在2014年該產品的銷量遠遠大於2012和2013年。

資料分析方法的應用

找出2014年9月該產品的銷售資料,得到如下圖。

資料分析方法的應用

上圖告訴我們,在2014年9月20號當天,508168的銷量達到了2779。

由於當年當月的節日如中秋節在9月8號,教師節在9月10號,產生熱銷的原因沒辦法證實。但可以揣測是因為商家對該類產品做了促銷活動導致的銷量上漲,從而導致第三季度銷量上升。

再來看類別50014815。

資料分析方法的應用

它在第四季度的11月份有一個顯著的增長高峰。

資料分析方法的應用

資料告訴我們,它的增長主要來源於2014年11月13日的銷量高峰,達到10029。 下面是該產品歷年的11月銷量圖。

資料分析方法的應用

資料分析方法的應用

資料分析方法的應用

上面三個圖我們可以看出,歷年來11月的銷售高峰並沒有出現在雙十一當天,而是2012年的11月10號,2013年的11月30號,2014年的11月13號。雖然2013年雙十一那天出現了銷量小高峰,但影響效果並不大。在其他日子出現銷量大幅上漲,猜測是由於商家進行了其他促銷活動,但缺乏資料支撐。

3。性別對銷量的影響

分析流程如下:

資料分析方法的應用

表1用If函式計算出成交單量,對錶2用vlookup函式關聯表1的購買日期,購買數量,商品大類,成交單量。清洗資料集並統計有效資料後發現使用者裡有406個女童,444個男童。所以男童使用者比女童使用者多。

資料分析方法的應用

從上圖得知,男女的購買比例為62%:38%。

顯然男女使用者的比例不足以造成如此懸殊的銷量比例。

將購買量多維度拆解,可以得到:

總購買量=成交單量*每單購買量

假設是因為男童的成交單量造成的。

資料分析方法的應用

男女使用者比例跟成交單量比例是一樣的,所以男童的購買量大於女童購買量可以說完全是因為男童的每單購買量大於女童的每單購買量導致的。

那又是什麼年齡段的男童的每單購買量比較大呢?

資料分析方法的應用

可以看出,5歲以後的男童基本不再產生購買行為。主要買家為1歲以前的男童家長。

4。年齡與銷量的關係

購買量=各個商品類別的購買量之和

資料分析方法的應用

由上圖可以看出,所有的類別的購買量隨著年齡的增加都在下降。類別50022520從一開始就一直在下降,剩下的其他產品類別的趨勢是先上升,幅度或大或小,然後再都下降。仔細看來,類別,50014815,50008168和28的銷量高峰都產生在年齡為0歲,類別122650008和38的銷量高峰產生在年齡為1歲的時候。

因此可以說1歲以後所有類別銷量都在下降,可以猜測這些商品類別應該是適用低齡幼兒的產品。但不同年齡的銷量高峰對應的產品類別不同,又說明這些產品的受眾不同,應該採取分年齡營銷策略。

結論

1。 依照現有資料2015年1,2月的銷量相比往年沒有下跌,反而比往年這兩個月銷量總和多。

2。 第三,四季度的銷量相比於第一,二季度上升是因為個別商品類別購買量上漲導致,第三季度的增長主要是由類別5008168帶來的,第四季度銷量主要是由類別50014815帶來的。而5008168的增長是由於在2014年9月20號當天,該類別的銷量達到了2779;50014815的增長是因為2014年11月13日的銷量高峰達到了10029,兩者都發生在2014年。雙十一購物節確實對刺激某些商品類別的銷量有積極影響,但影響力度有限,有時候不及其他促銷活動有效果。

3。 在銷量上,男童大於女童,原因是男童使用者的每單購買量大於女童使用者的每單購買量。5歲以後的男童基本不再產生購買行為,主要買家為1歲以前的男童家長。

4。 對於1歲以上使用者,所有產品的吸引力都在下降。但每個品類最大受眾的年齡段不同,主要集中在0歲和1歲嬰幼兒。

建議

· 最佳化影響單量的各個因素,如可以從產品,客戶服務,退貨款政策,廣告等方面著手,在2014年的基礎上進一步壯大使用者基數,提高留存與復購率。

· 在下半年將不暢銷產品類別與暢銷品類捆綁銷售,或者做加購活動,以帶動整體銷量。

· 調整產品範圍,縮減適用於5歲後孩子的產品,集中供應這個年齡前的嬰幼兒產品。尤其是要豐富1歲前孩子適用的嬰幼兒產品,特別是男童,給顧客創造更多消費的機會。

· 升級改善1歲到5歲孩子適用的產品,可以從提升質量,捆綁營銷,買贈等方面刺激銷量。

· 採取分年齡營銷策略,讓每個品類精準輻射到對應的人群。

標簽: 銷量  購買量  類別  使用者  男童