利用python對某超市銷售資料進行分析
學習python的第20天,之前確定了電商方向,這次就找了電商行業的資料進行分析,主要用到的方法是groupby函式,二維資料的切片訪問以及建立查詢條件進行查詢。
一、 提出問題
1。 該平臺的在哪個地區的銷量和利潤率最高,主要是哪些產品帶動的銷量
2。 該平臺的在哪個地區的銷量和利潤率最低,主要是哪些產品導致的利潤較低
3。 造成利潤過低的原因是什麼
二、 理解資料
1。匯入資料
檢視資料前四行,瞭解資料的大致情況
2。describe()函式檢視資料的整體特徵,總共9935條資料,利潤的最小值為-7978元
最大值為10108元,銷售額的最小值為13。44,最大值為35621。
分析時可以著重探究銷售額及利潤的最大值和最小值,研究造成該結果的原因是什麼。
3。按日期進行排序並對列名重新編號
排序後檢視資料為 2013-1-1到2016-12-30的資料,總共四年資料,資料主要有訂單日期、郵寄方式、國家、地區、城市、類別、銷售額、利潤等等
4。對指標的理解
銷售額:是納稅人銷售貨物或者應稅勞務向購買方收取的全部價款和價外費用,但是不包括收取的銷項稅額。計算方法:銷售額=銷售量×平均銷售價格
銷售額=利潤+成本
利潤率=利潤/銷售額。 其實我們也可以透過利用率來分析各個商品的盈利情況,但由於只有資料,對該公司的經營情況不太瞭解,不知該利潤是透過何種方式計算出來,所以本文簡單的用利潤還衡量其盈利情況。
三、 資料清洗
1。檢視異常值
資料並無缺失值說明所得到的為二手資料,前期已經被處理過
2。對列名進行重新命名
3。一開始匯入的都為字串型,在這裡將後三列資料,數量、銷售額及利潤轉化為數值型,
由於原始資料是整理過的資料,訂單日期一列自動轉化為日期格式,如果是將字串轉化為日期型可以用如下方法:
四、 構建模型
1。 透過groupby函式對各省進行分類彙總,按照利潤排序
對資料進行排序
透過groupby函式對各省進行分類彙總,按照利潤排序。
2。切片訪問,擷取利潤最高和最低的三個省
利潤最高的三個省為黑龍江、廣東、山東
利潤最低的三個省為遼寧、浙江、湖北
3。彙總 各類別所帶來的利潤排序
著重分析一下利潤最低的遼寧
(1)先構建查詢條件將所有遼寧的資料篩選出來
(2)對遼寧的各個類別的銷售額及利潤進行彙總
可以看到 技術和傢俱類全部都是虧損的,辦公用品中的器具是虧損最多的
而利潤最高的山東除了桌子是虧損的其餘全是盈利。
(3)為進一步探索原因,檢視遼寧省各市區虧損情況,
最終結果顯示,除了三個城市有微薄的利潤以外,其餘所有城市全部虧損。
(4)以虧損最高的城市瀋陽作為主要研究物件對其各類別銷量進行研究
其虧損特徵和整個遼寧省的虧損特徵一致 辦公用品中的器具為虧損最多的
(5)對器具再進行分類
器具中主要導致虧損的是微波驢和爐灶。
五、 總結
1。該商家在山東省的利潤最高的,而帶來利潤的主要來源是傢俱類,但奇怪的是傢俱中書架和椅子的銷售額都很高,而桌子的銷售額卻不高,虧損也是最多的,至於造成這一現象的原因是什麼是我們值得探討的。
2。而利潤最低的遼寧省和山東省地理位置很近,但兩個城市的盈利狀況卻大相徑庭,遼寧省的各項商品幾乎都是虧損狀態,著重研究虧損最高的城市瀋陽發現,器具中的微波爐和爐灶是虧損狀況最為嚴重的。
3。 至於虧損原因是什麼是值得我們探究的問題,是由於商家進貨該產品的成本過高,那商家應考慮調整進貨渠道,如果是商品定價問題是否需要調整該商品的價位,還是商家為了拉取瀋陽的新客戶所以低價銷售,這些是值得思考的問題。但從銷售數量上看山東和遼寧的銷售數量差別不是很大,所以商家可能更需要考慮的是對於遼寧省的商品定價是否合理。
4。本次主要選取利潤做為主要研究物件,但也有些商品是利潤大但其銷量也很大的,該指標不能很好的反應利潤相對於銷售額的盈利能力,所以可能選取利潤率作為主要的指標是更好的選擇。