某宝移动端用户行为分析---PYTHON
1 數(shù)據(jù)來(lái)源說(shuō)明
數(shù)據(jù)來(lái)源:下載于天池?cái)?shù)據(jù)集–< User Behavior Data on Taobao App> https://tianchi.aliyun.com/dataset/dataDetail?dataId=46
這份數(shù)據(jù)是15年天池大賽的比賽數(shù)據(jù),內(nèi)容包括了14年雙十一之后到雙十二結(jié)束這段時(shí)間內(nèi)用戶的行為痕跡,共6個(gè)指標(biāo)12256906個(gè)用戶,本文將使用PYTHON對(duì)整體用戶購(gòu)物情況進(jìn)行分析。
數(shù)據(jù)指標(biāo)說(shuō)明如下表:
| user_id | 用戶身份,脫敏 |
| item_id | 商品id,脫敏 |
| behavior_type | 用戶行為類型(包括點(diǎn)擊,收藏,加購(gòu)物車和付款四種行為,相應(yīng)的值分別為1,2,3和4。) |
| user_geohash | 地理位置 |
| item_category | 品類ID(商品所屬的品類) |
| time | 用戶行為發(fā)生的時(shí)間 |
2 研究目標(biāo)
-
基本數(shù)據(jù)統(tǒng)計(jì)
總PV、總UV、有購(gòu)買行為的用戶數(shù)量、復(fù)購(gòu)率、跳失率 -
用戶行為轉(zhuǎn)化漏斗
點(diǎn)擊–收藏–加購(gòu)物車–支付各環(huán)節(jié)轉(zhuǎn)化率如何? -
購(gòu)買次數(shù)占前80%的品類有多少?
-
從時(shí)間維度了解用戶的行為習(xí)慣
每天的PV、UV
3 數(shù)據(jù)預(yù)處理
3.1數(shù)據(jù)抽樣
導(dǎo)入數(shù)據(jù),看看數(shù)據(jù)的具體情況
import pandas as pd data=pd.read_csv(r'E:\DATA\tianchi_mobile_recommend_train_user.csv') print(data.head()) data.info() print(data.describe())
由于數(shù)據(jù)較為龐大,進(jìn)行抽樣處理–隨機(jī)抽樣
抽取100萬(wàn)條數(shù)據(jù)
3.2 數(shù)據(jù)清洗
數(shù)據(jù)一致化處理
通過(guò)查看數(shù)據(jù)可得知,time字段的時(shí)間包含年-月-日和小時(shí),為方便分析,將該字段分為2個(gè)字段:一個(gè)日期列,一個(gè)小時(shí)列
用Excel實(shí)現(xiàn) 將該字段的小時(shí)列刪除,將數(shù)據(jù)名字保存為user_
缺失值處理
user_geohash地理位置列,多數(shù)為NULL,且信息被加密處理,后面便不做地理位置的研究。
數(shù)據(jù)處理,將行為提取
#將behavior_type的四種行為類型分別用1,2,3,4代表,為方便查看現(xiàn)將數(shù)字轉(zhuǎn)為pv,collect,cart,buy data.loc[data['behavior_type']==1,'behavior_type']='pv' data.loc[data['behavior_type']==2,'behavior_type']='collect' data.loc[data['behavior_type']==3,'behavior_type']='cart' data.loc[data['behavior_type']==4,'behavior_type']='buy'4 整體用戶購(gòu)物情況
4.1 基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)
4.1.1 計(jì)算PV
pv(總訪問(wèn)量)為:942396 PV即Page View, 即頁(yè)面瀏覽量或點(diǎn)擊量,用戶每次刷新即被計(jì)算一次。
4.1.2 計(jì)算UV
UV(用戶總數(shù)):9869 UV(獨(dú)立訪客):即Unique Visitor,訪問(wèn)您網(wǎng)站的一臺(tái)電腦客戶端為一個(gè)訪客。00:00-24:00內(nèi)相同的客戶端只被計(jì)算一次。
4.1.3計(jì)算有購(gòu)買行為的用戶數(shù)
有購(gòu)買行為的用戶數(shù):3595
4.1.4 計(jì)算重復(fù)購(gòu)買率
復(fù)購(gòu)率=65.7% 復(fù)購(gòu)率=購(gòu)買2次或以上的用戶/購(gòu)買用戶總數(shù)
4.2 分析用戶行為習(xí)慣----時(shí)間維度
4.2.1 每周的用戶行為數(shù)量變化趨勢(shì)
可以看到,周一到周二的用戶行為逐漸增加,周二-周四達(dá)到一個(gè)穩(wěn)定值,周四到-周六用戶行為明顯減少,周六為一周最低,周六后開(kāi)始逐漸增加。
4.2.2 日PV
結(jié)論:在12月份開(kāi)始,用戶行為逐漸有增多趨勢(shì),尤其在12月9日開(kāi)始,用戶行為明顯高于其他時(shí)期,這幾天用戶行為增多是因?yàn)樘詫毜摹半p十二”活動(dòng)。
4.2.3 日UV
結(jié)論:用戶總數(shù)變化趨勢(shì)與PV量變化趨勢(shì)類似,周末的數(shù)量逐漸增加,到工作日又逐漸降低。在雙十二期間,用戶總數(shù)明顯上升,活動(dòng)過(guò)后,人數(shù)明顯下降至平穩(wěn)狀態(tài)。
day_uv=data.groupby('time')['user_id'].nunique() day_uvfig=plt.figure(figsize=(20,6)) plt.rcParams['axes.unicode_minus'] = False plt.rcParams['font.sans-serif']=['SimHei'] plt.title(u'每天UV量') ax=fig.add_subplot(111) ax.xaxis.set_major_formatter(mdate.DateFormatter('%Y-%m-%d')) plt.xticks(pd.date_range(day_uv.index[0],day_uv.index[-1],freq='D'),rotation=45)#用來(lái)正常顯示中文標(biāo)簽 plt.rcParams['axes.unicode_minus']=False ax.plot(day_uv.index,day_uv)4.2.4 購(gòu)買轉(zhuǎn)化率
轉(zhuǎn)化率=1.06%
用戶行為轉(zhuǎn)化漏斗如下圖
結(jié)論:用戶點(diǎn)擊后,收藏或者加購(gòu)物車的概率在5%左右,而最后真正的購(gòu)買率在1%,已經(jīng)收藏或者加購(gòu)物車到最終購(gòu)買的轉(zhuǎn)化率為21.03%,購(gòu)買轉(zhuǎn)化率很低,后面可以采取活動(dòng)提高購(gòu)買轉(zhuǎn)化率。
4.2.5 品類銷售次數(shù)TOP10
df=data[data['behavior_type']=='buy'] print(df.groupby('item_category').count().sort_values('user_id',ascending=False))結(jié)論:購(gòu)買次數(shù)最多的品類是6344,購(gòu)買次數(shù)為162.
5 總結(jié)
總結(jié)
以上是生活随笔為你收集整理的某宝移动端用户行为分析---PYTHON的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Ubuntu18.04+ROS+ 乐视三
- 下一篇: 北理python复试_【经验贴】2020