excel按季度分类汇总_Excel数据分析实战(1)--电商销售记录分析
Excel是市面上最流行的辦公軟件之一,也是數據分析師入門最好的學習工具。因為其功能強大、操作簡單,可以快速對數據進行清洗,建模,可視化,操作者不需要其他計算機基礎也能快速上手。所以選擇Excel進行數據分析入門的項目實戰工具是比較合適的。
數據來源:
Baby Goods Info Data-數據集-阿里云天池?tianchi.aliyun.com1)明確問題
在開始分析之前,我們要明確我們要研究的目的,圍繞著這個主題展開分析。面對海量數據,可獲得的信息太多了,很容易就在數據里面迷失了方向,最后花了很多時間也不一定能找到對我們解決問題有價值的信息。我們需要明確我們要解決問題是什么,針對問題進行分解,通過分析逐步鎖定關鍵因素,高效地解決問題。
以下是在大概熟悉數據后,我們可以研究的方向:
2)理解數據
表1購買商品 - 原始數據表1購買商品表共29972條數據,包括7個字段,分別是
user_id,用戶ID(外鍵)。表示某交易記錄的購買用戶,可以在表2中查詢到相應用戶的嬰兒信息,可用于分析嬰兒特征。
auction_id,交易記錄ID(主鍵)。與用戶ID共同構成此表的主鍵,唯一標識購買記錄。
cat1,商品的一級分類ID。
cat_id,商品的二級分類ID。與一級商品分類ID構成從屬關系,也就是二級分類從屬于某一商品一級分類。可以統計分析某一類商品的銷量,找出銷量較好的商品種類及原因。
property,具體商品屬性,有144個缺失值。
buy_mount,購買數量,可以分析購買特定商品的每單購買量,從而匯總得到購買頻次,有助于預測最佳庫存水平。
day,購買時間。通過分析購買時間,可以得到顧客集中購買的時間段,分析集中購買的原因,針對性開展營銷活動。
表2 嬰兒信息 - 原始數據表2嬰兒信息表954條數據,包括3個字段,分別是:
user_id,用戶ID(主鍵),唯一標識用戶信息。
birthday,嬰兒出生日期,代表著嬰兒的年齡信息,可以匯總不同年齡段嬰兒對商品種類的需求,以便展開精準營銷。
gender,嬰兒性別。可以研究嬰兒性別對不同商品的種類需求,以便展開精準營銷。
這兩個表的用戶ID字段表示的信息是一致的。
3)清洗數據
3.1修改列名
把英文字段名稱修改為中文。大部分從數據庫取出的數據字段為英文,轉化為自己理解的中文,更方便我們操縱數據。
表1購買商品-修改列名表2嬰兒信息-修改列名3.2刪除重復值:主鍵(用戶ID,交易記錄ID),唯一標識購買記錄。以用戶ID+交易記錄ID字段為條件,在excel進行中刪除重復值操作,結果為無重復值。表明該數據集較規范不需要過多清洗。
3.3缺失值處理:只有具體商品屬性有缺失值,不影響分析結果,不處理。
3.4一致化處理:
有些數據并不是我們想要的格式,通過一致化處理把原始數據轉化成便于操作的數據格式。
購買日期數據類型為常規數值型,通過分列轉化為日期型。
購買日期一致化處理(前)購買日期一致化處理(后)同樣處理表2的嬰兒出生日期
嬰兒出生日期一致化處理(后)4)分析/建模
4.1哪些時候銷售情況比較好?銷售量比較高?
因為某些年份的統計數據不完全,所以不能按年匯總統計比較銷售量,我們可以選擇按季度匯總統計,可以看出銷售量存在季節性,每年的第一二三四季度銷售量逐步攀升,總體呈上升趨勢。由于2015年第一季度的數據不完全,導致呈現的銷售量數值偏低。證明國內嬰兒食品的消費市場快速增長,消費潛力巨大。
各季度銷量匯總把月銷量整理到新的工作表區域,用描述統計工具對月銷量進行描述統計匯總分析。結果如下,可以看出平均值偏高,標準差較大,證明月銷量分布極度不平均,波動程度大,需要某些月份進行監控,防止出現庫存嚴重短缺或嚴重積壓的情況,影響正常運營。
月銷量描述統計把精度細化到月份,可以看到2014年11月的銷售量特別巨大,嬰兒食品銷售量為13044,是去年同期銷量的5倍多。大致原因推測為雙十一促銷活動的成功導致當月銷售量激增。可進一步分析雙十一促銷效果,制定合理的營銷策略,配合相應的庫存策略,應對集中的需求。
月銷量匯總4.2暢銷的商品類別有哪些?
對不同商品種類(一級分類)的銷售量進行匯總統計,按銷售量從大到小排序,發現銷量集中在前三種類別的商品。
一級分類銷售量排行接下來分析哪些商品(二級分類)比較暢銷
做輔助列,合并成“商品一級分類ID-商品二級分類ID“的形式,命名為商品ID
顯示銷售量前10商品。由圖可以看出一級分類ID為50014815,二級分類ID為50018831的商品銷售量特別大,甚至是銷量第二的3.5倍。可以說是嬰兒食品里面的爆款了,需要進一步分析其銷量領先的原因。
二級分類銷售排行為了快速對不同商品分類的銷量進行分析,對商品一級分類ID、二級分類ID進行切片。
排名第一,ID為50014815-50018831的每月銷量情況如下圖:
除了每年11月份銷量有所上漲外,其余各月銷量基本低于120。2014年十一月份銷量突然猛增,是使其成為銷量冠軍的主要原因,但是后續市場反應也平平,需要關注產品本身的質量問題。
ID為50014815-50018831的月銷量情況4.3用戶的購買行為與嬰兒年齡、嬰兒性別是否有關,能否根據購買行為預測孩子年齡、性別;或者根據孩子年齡和性別預測用戶購買哪種商品?
進行多表連接查詢:利用vlookup查詢對應用戶的嬰兒出生日期、嬰兒性別記錄,把查詢得到的結果復制粘貼到新工作表,
嬰兒性別為無性別(值為2)的比例很小,刪除此部分數據
計算得到嬰兒年齡,存在負值統一處理為0。使用Excel加載項-數據分析工具,進行描述統計分析。可見嬰兒年齡數據在0-2829周歲之間,范圍較廣,中位數和平均值相差較多,分布不均勻,標準差也比較大,波動程度較大。
為了方便統計分類,新增一列“階段”,將年齡向下取整,得到分布情況如下
嬰兒年齡分布統計匯總結果反映嬰兒年齡結構,可見到6歲以上各項占比很少,歸為一類“六周歲以上”。將年齡為0的數據根據實際意義改成“一周歲以下 ”,整理后嬰兒年齡分布情況如下。
整理后-嬰兒年齡分布嬰兒性別分布
可見嬰兒男女比例較均衡。
嬰兒男女比例對不同一級分類商品購買者嬰兒年齡的平均值和標準差進行計算,初步得出不同商品一級分類的目標嬰兒群體年齡是不同的,由標準差可看出分布相對較集中的有“38”、“50022520”。如“38”的目標群體在一周歲左右,“50022520“對應目標人群年齡在6個月左右。可以通過購買的商品一級分類推出嬰兒的年齡處于哪個階段。
總結
以上是生活随笔為你收集整理的excel按季度分类汇总_Excel数据分析实战(1)--电商销售记录分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解析php混淆加密解密的手段,如 php
- 下一篇: WCF 宿主与通信模式(二)