如何用SQL分析电商用户行为数据(案例)
?? ? ? ?? ? ? ?
叮當(dāng)之前主要是做增長(zhǎng)方向的,平時(shí)工作中主要基于問(wèn)題做數(shù)據(jù)分析,大部分時(shí)候都是怎么快怎么來(lái)。
很少有各種工具,各種分析方法全來(lái)一遍的,所以本次借分析“淘寶用戶行為數(shù)據(jù)集”為案例,梳理一下自己的數(shù)據(jù)分析技能。
本文以“淘寶用戶行為數(shù)據(jù)集”的分析全過(guò)程為例,展示數(shù)據(jù)分析的全過(guò)程,分析部分需要一些SQL基礎(chǔ)。
——使用工具:MySQL,Excel,Navicat,PowerBI
——數(shù)據(jù)來(lái)源:阿里天池實(shí)驗(yàn)室-淘寶用戶行為數(shù)據(jù)集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
——分析類(lèi)型:描述分析,診斷分析
——分析方法:漏斗分析,用戶路徑分析,RFM用戶價(jià)值分析,活躍/存留分析,帕累托分析,假設(shè)驗(yàn)證分析。
(考慮到閱讀體驗(yàn)文章中只放了SQL截圖)
目錄如下
? ? ? ?? ? ? ?
一、分析流程和方法
1.1 數(shù)據(jù)分析類(lèi)型
? ? ? ?
當(dāng)沒(méi)有清晰的數(shù)據(jù)看板時(shí)我們需要先清洗雜亂的數(shù)據(jù),基于分析模型做可視化,搭建描述性的數(shù)據(jù)看板。
在沒(méi)有很明確問(wèn)題或問(wèn)題很多很復(fù)雜的情況下,直接看雜亂的源數(shù)據(jù)不僅效率很低,也很難得到有價(jià)值的信息。
然后基于描述性的數(shù)據(jù)挖掘問(wèn)題,提出假設(shè)做優(yōu)化,或者基于用戶特征數(shù)據(jù)進(jìn)行預(yù)測(cè)分析找規(guī)律,基于規(guī)律設(shè)計(jì)策略。簡(jiǎn)單來(lái)說(shuō):
——描述性分析就是:“畫(huà)地圖”
——診斷性分析就是:“找問(wèn)題”
——預(yù)測(cè)性分析就是 :“找規(guī)律”
1.2 數(shù)據(jù)分析的兩個(gè)典型場(chǎng)景
在數(shù)據(jù)分析中有兩個(gè)典型的場(chǎng)景:
一種是有數(shù)據(jù),沒(méi)有問(wèn)題:需要先整體分析數(shù)據(jù),然后再根據(jù)初步的描述分析,挖掘問(wèn)題做診斷性分析,提出假設(shè),設(shè)計(jì)策略解決問(wèn)題。
?
另一種是已經(jīng)發(fā)現(xiàn)了問(wèn)題,或者已經(jīng)有了假設(shè),這種做數(shù)據(jù)分析更偏向于驗(yàn)證假設(shè)。
?
二、淘寶用戶行為分析
本次是對(duì)“淘寶用戶行為數(shù)據(jù)集”進(jìn)行分析,在分析之前我們并不知道有什么問(wèn)題,所以需要先進(jìn)行描述性分析,分析數(shù)據(jù)挖掘問(wèn)題。
2.1 解讀元數(shù)據(jù)
我們首先來(lái)看下這個(gè)數(shù)據(jù)集的元數(shù)據(jù):
? ? ??
數(shù)據(jù)集包含了2017年11月25日至2017年12月3日之間,有行為的約一百萬(wàn)隨機(jī)用戶的所有行為(行為包括四種:點(diǎn)擊商品詳情頁(yè)、購(gòu)買(mǎi)商品、將商品放入購(gòu)物車(chē)、收藏商品)。數(shù)據(jù)集的每一行表示一條用戶行為,由用戶ID、商品ID、商品類(lèi)目ID、行為類(lèi)型和時(shí)間戳組成,并以逗號(hào)分隔。
本數(shù)據(jù)集包含:用戶數(shù)量987994;商品數(shù)量4162024;商品類(lèi)目數(shù)量9439;所有行為數(shù)量100150807
2.2 選擇分析方法
根據(jù)以上數(shù)據(jù)字段我們可以拿用戶行為為主軸從縱深方向提出一些問(wèn)題,然后再?gòu)臄?shù)據(jù)中找答案。
? ? ? ?? ? ? ?
縱向:
——這個(gè)數(shù)據(jù)集中用戶的日活躍和周活躍時(shí)間有什么規(guī)律嗎?
——在當(dāng)日活躍的用戶次日,三日,四日……還有多少活躍?
深向:
——用戶從瀏覽到購(gòu)買(mǎi)的整體轉(zhuǎn)化率怎么樣?
——用戶從瀏覽到購(gòu)買(mǎi)的路徑是怎么樣子的??
——平臺(tái)主要會(huì)給用戶推送什么商品?
——用戶喜歡什么類(lèi)目?喜歡什么商品??
——怎么判斷哪些是高價(jià)值用戶 ??
?
下面是叮當(dāng)整理的常用分析方法:? ? ??? ? ? ?
我們可以給前面的問(wèn)題匹配一下分析方法,便于后面的分析:
2.3 數(shù)據(jù)清洗
為了便于后面的數(shù)據(jù)分析,在分析之前我們需要先對(duì)做一下清洗
2.3.1數(shù)據(jù)預(yù)處理:
看元數(shù)據(jù)(字段解釋,數(shù)據(jù)來(lái)源,數(shù)據(jù)類(lèi)型,數(shù)據(jù)量……)初步發(fā)現(xiàn)問(wèn)題為之后的處理做準(zhǔn)備。
數(shù)據(jù)導(dǎo)入:由于整體數(shù)據(jù)集有100W+條數(shù)據(jù),導(dǎo)入太慢,本次僅導(dǎo)入10W條分析
添加列名:數(shù)據(jù)導(dǎo)入時(shí)默認(rèn)使用第一行數(shù)據(jù)作為列名,由于本數(shù)據(jù)集沒(méi)有列名,需要添加
? ? ? ?? ? ? ?
2.3.2缺失值清洗:
確定缺失值范圍,去除不需要字段,填充缺失內(nèi)容? ??
2.3.3格式內(nèi)容清洗:
根據(jù)元數(shù)據(jù)格式和后續(xù)分析需要的格式對(duì)數(shù)據(jù)進(jìn)行處理
timestamps字段是時(shí)間戳字符類(lèi)型,而后面要做存留分析和用戶活躍時(shí)間段需要用到時(shí)間戳中的日期字段和時(shí)間字段,在這里需要提前分下列。
??
2.3.4邏輯錯(cuò)誤清洗
去除重復(fù)值,異常值
——去除重復(fù)值:并把用戶ID,商品ID,時(shí)間戳設(shè)置為主鍵
——異常值處理:查詢并刪除2017年11月25日至2017年12月3日之外的數(shù)據(jù)
剔除不在本次分析范圍的數(shù)據(jù)
? ? ??
查詢并刪除小于2017-11-25的
——驗(yàn)證數(shù)據(jù):? ? ??
2.4 描述分析
2.4.1這個(gè)數(shù)據(jù)集中用戶的日活躍和周活躍時(shí)間有什么規(guī)律嗎?
——分析思路:
從“時(shí)間戳“字段中抽取出“日期”和“小時(shí)”的數(shù)據(jù),創(chuàng)建一個(gè)“活躍時(shí)間”字段,并從“行為類(lèi)型”中用分組方式把用戶的“瀏覽”“收藏”“加購(gòu)物車(chē)”“購(gòu)買(mǎi)”行為抽離出來(lái),組成一個(gè)視圖表,導(dǎo)出到Excel中用透視表分析用戶的日活躍規(guī)律和周活躍規(guī)律。
——SQL提數(shù):
增加活躍時(shí)間字段
? ? ? ?? ? ? ?
查詢用戶 活躍時(shí)間分布,并創(chuàng)建視圖
? ? ? ?? ? ? ?
——Excel可視化:
? ? ? ?? ? ? ?
活躍曲線整體為上升狀態(tài),同為周六日,12月2號(hào),3號(hào)相比11月25日,26日活躍度更高。
是否是用戶增長(zhǎng)帶來(lái)的?
用戶在周六周日相比其他時(shí)間更活躍(周六周日為休息日,用戶有更多時(shí)間)
? ? ??
一天內(nèi)用戶活躍的最高峰期為21點(diǎn)(用戶在這個(gè)時(shí)間段空閑較多)
正常工作職場(chǎng)工作者的睡前時(shí)間,996的應(yīng)該也下班啦~
?
2.4.2在當(dāng)日活躍的用戶次日,三日,四日……還有多少活躍?
——分析思路:
用戶存留的分析可以分為“新用戶存留”和“活躍用戶存留”
新用戶存留一般指:新注冊(cè)用戶在一定時(shí)間周期內(nèi)還會(huì)不會(huì)再登錄
活躍用戶存留需要根據(jù)產(chǎn)品類(lèi)型和用戶場(chǎng)景選擇“關(guān)鍵行為”和選擇“時(shí)間周期”
-關(guān)鍵行為:淘寶作為購(gòu)物網(wǎng)站,用戶瀏覽,收藏,加購(gòu),購(gòu)買(mǎi)商品與交易行為高度相關(guān)都可作為關(guān)鍵行為。
-時(shí)間周期:淘寶擁有海量的SKU,基本可以滿足用戶各方面的需求,理論上用戶每天都有購(gòu)買(mǎi)需求,時(shí)間周期可以按天。
SO,實(shí)際上這個(gè)問(wèn)題就是在求,數(shù)據(jù)集第一日在APP有關(guān)鍵行為的用戶在第二天,第三天……還會(huì)繼續(xù)在APP中有關(guān)鍵行為的用戶占比
我們需要先列出每用戶每天及當(dāng)天后面又活躍的日期,用于后面求次日存留,三日存留……
之后按日期對(duì)用戶進(jìn)行分組,并抽取之后9天依然活躍的用戶數(shù)量
最后用活躍用戶表中后續(xù)活躍用戶除首日活躍數(shù)量乘100加%號(hào)
——SQL提數(shù):
列出每用戶每天及當(dāng)天后面又活躍的日期,并創(chuàng)建“活躍時(shí)間間隔表”用于后面求次日存留,三日存留……
? ? ? ?? ? ? ?
對(duì)“活躍時(shí)間間隔表視圖”引用進(jìn)行分組統(tǒng)計(jì),計(jì)算每日存留人數(shù)并創(chuàng)建視圖
? ?對(duì)存留人數(shù)表進(jìn)行計(jì)算,統(tǒng)計(jì)活躍用戶留存率
?? ?——Excel可視化:
? ? ? ?? ? ? ?
用戶增長(zhǎng):從2017年11月15日致2017年12月3日,活躍用戶新增38%
存留增長(zhǎng):從2017年11月15日致2017年12月3日,活躍用戶次日留存增長(zhǎng)18.67%,當(dāng)日的活躍用戶留存也在快速增長(zhǎng),第七日留存比次日留存高18.56%。
假設(shè)隨時(shí)間增長(zhǎng)的留存率提升來(lái)源于新dau提升策略的優(yōu)化,后續(xù)存留的提升來(lái)源于召回策略的優(yōu)化。
2.4.3用戶從瀏覽到購(gòu)買(mǎi)的整體轉(zhuǎn)化率怎么樣?
——分析思路:
將數(shù)據(jù)集中按不同用戶,不同商品維度進(jìn)行分組獲得某一用戶行為對(duì)某一商品不同行為的數(shù)據(jù),然后對(duì)“用戶行為漏斗表”中的瀏覽,加購(gòu)物車(chē),收藏,購(gòu)買(mǎi)行為進(jìn)行分組統(tǒng)計(jì)。
——SQL提數(shù):
-把各種用戶行為分離出來(lái)并創(chuàng)建視圖方便后續(xù)查詢用戶行為數(shù)據(jù)
?? ?查詢整體數(shù)據(jù)漏斗
——Excel可視化:
? ? ? ??? ? ?
用戶從瀏覽到購(gòu)買(mǎi)整體轉(zhuǎn)化率2.3%,具體主要在哪個(gè)環(huán)節(jié)流失還需要再細(xì)分用戶路徑分析
?
2.4.4用戶從瀏覽到購(gòu)買(mǎi)的路徑是怎么樣子的??
——分析思路:
窮舉所有可能的用戶路徑,引用“用戶行為漏斗表”視圖,計(jì)在數(shù)據(jù)中點(diǎn)擊行為大于0,購(gòu)買(mǎi)行為大于0,其他兩項(xiàng)為0,則判定本用戶購(gòu)買(mǎi)路徑為:點(diǎn)擊—購(gòu)買(mǎi),其他路徑同理,多次查詢并用Excel表記錄查詢數(shù)據(jù),用戶PowerBI?;鶊D做可視化。
? ? ? ??? ? ?
——SQL提數(shù):
——PowerBI可視化:
? ? ? ?
用戶從瀏覽到購(gòu)買(mǎi)的路徑主要有4條,路徑越長(zhǎng)轉(zhuǎn)化率越底
路徑1:瀏覽→購(gòu)買(mǎi):轉(zhuǎn)化率1.45%
路徑2:瀏覽→加購(gòu)物車(chē)→購(gòu)買(mǎi):轉(zhuǎn)化率0.33
路徑3:瀏覽→收藏→購(gòu)買(mǎi):轉(zhuǎn)化率0.11%
路徑4:瀏覽→收藏→加購(gòu)物車(chē)→購(gòu)買(mǎi):轉(zhuǎn)化率0.03%
以上轉(zhuǎn)化率等于起始路徑到購(gòu)買(mǎi)的轉(zhuǎn)化
2.4.5平臺(tái)主要給用戶推送什么商品?
——分析思路:
雖然我們沒(méi)法直接從數(shù)據(jù)中找到平臺(tái)推送的數(shù)據(jù),但作為平臺(tái)流量?jī)A斜的商品,瀏覽量一般都會(huì)比其他商品的瀏覽量高一些,我們可以引用“用戶行為漏斗表”視圖統(tǒng)計(jì)瀏覽量前100的商品及其類(lèi)目。
——SQL提數(shù):
——Excel可視化:
? ? ? ?? ? ? ?
——描述性分析:
瀏覽量top100的商品瀏覽量呈階梯分布,越靠前的階梯之間的落差相對(duì)越大在這個(gè)階梯中的商品越少,越靠后商品瀏覽量階梯之間的落差相對(duì)越小,同階梯內(nèi)的商品越多。
——是否是用于淘寶流量分配規(guī)則的原因造成的?(假設(shè)淘寶的規(guī)則是給所有商品分配的初始流量是一樣的,后期這些商品中那些商品轉(zhuǎn)化率高就給哪些商品更多曝光。)
瀏覽量TOP100的商品所屬類(lèi)目中,4756105,3607361,4357323三個(gè)類(lèi)目瀏覽量遠(yuǎn)超其他類(lèi)目。
——這個(gè)幾個(gè)類(lèi)目商品類(lèi)型是否是高頻剛需類(lèi)型的呢?
2.4.6用戶喜歡什么商品??
——分析思路:
找高轉(zhuǎn)化率的商品(銷(xiāo)量高的有可能只是低價(jià)或者流量大)
——SQL提數(shù):
查詢計(jì)算商品轉(zhuǎn)化率,升序排列,取前100個(gè)
? ? ? ??
——Excel可視化:
? ? ? ??
——描述性分析:
從商品看:有17款商品轉(zhuǎn)化率超過(guò)了1。
是否是由于用戶直接從購(gòu)物車(chē)或者商品收藏直接復(fù)購(gòu),未點(diǎn)擊商詳?
從類(lèi)目看:這些商品所屬類(lèi)目分布均勻,除965809,4801426,2735466,2640118,5063620,4789432,2945933這7個(gè)類(lèi)目之外,其他類(lèi)目都只有一個(gè)商品在轉(zhuǎn)化率TOP100的商品中。
是否是由于淘寶是根據(jù)“同一類(lèi)目下的高轉(zhuǎn)化商品”給用戶做推薦的?
2.4.7怎么判斷哪些是高價(jià)值用戶 ??
——分析思路:
用戶價(jià)值分析常用的分析方式是RFM模型
RFM模型是3個(gè)指標(biāo)的縮寫(xiě),最近一次消費(fèi)時(shí)間(R),消費(fèi)頻率(F),消費(fèi)金額(M)
然后給這三個(gè)指標(biāo)根據(jù)價(jià)值分5個(gè)等級(jí) ,進(jìn)行打分計(jì)算分值和平均值,然后根據(jù)分值與平均值對(duì)比,分出“高”“中”“低”,綜合進(jìn)行用戶分層。
? ? ? ?? ? ? ?
本次分析中的R,F,M具體定義(僅用于演示分析方法,無(wú)實(shí)際業(yè)務(wù)參考價(jià)值):
-R:根據(jù)用戶最近一次的購(gòu)買(mǎi)時(shí)間與2017年12月3日之間的差值,判斷用戶最近一次消費(fèi)時(shí)間間隔。
-F:將數(shù)據(jù)集中用戶在2017年11月25日至2017年12月3日9天時(shí)間內(nèi)的購(gòu)買(mǎi)次數(shù)作為消費(fèi)頻率
-M:由于本數(shù)據(jù)集中未包含購(gòu)買(mǎi)金額字段,暫時(shí)排除此指標(biāo)。
?
——SQL取數(shù)與分析:
1)建立打分標(biāo)準(zhǔn):先計(jì)算R,F的值,并排序,根據(jù)R,F值最大值和最小值得區(qū)間設(shè)計(jì)本次得打分標(biāo)準(zhǔn)
關(guān)于打分標(biāo)準(zhǔn):不同業(yè)務(wù)的用戶消費(fèi)頻率,消費(fèi)金額,精細(xì)化運(yùn)營(yíng)策略與成本……都是不同,一般常用”分位數(shù)“建立打分標(biāo)準(zhǔn),由于SQL并不是專業(yè)得統(tǒng)計(jì)分析工具,計(jì)算分位數(shù)較為復(fù)雜,本次僅使用最大值和最小值的區(qū)間初略建立規(guī)則。
分位數(shù):是指在統(tǒng)計(jì)學(xué)中把所有數(shù)值由小到大排列并分成幾等份,取處于對(duì)應(yīng)幾個(gè)分割點(diǎn)位置的數(shù)值。
-查詢并計(jì)算R,F值創(chuàng)建視圖
? ? ? ?? ? ? ?
-引用RF數(shù)值表,分別查詢R,F的最大值和最小值
? ? ? ?
? ? ? ?? ? ? ?
-結(jié)合人工瀏覽的建立打分標(biāo)準(zhǔn)? ? ??
消費(fèi)時(shí)間間隔:在1~8區(qū)間內(nèi)四等分
消費(fèi)頻率:由于人工 瀏覽時(shí)發(fā)現(xiàn)很少有超過(guò)20次購(gòu)買(mǎi)的,故消費(fèi)頻率在20以內(nèi)四等分
2)給R,F按價(jià)值打分
3)計(jì)算價(jià)值的平均值? ? ?? ? ? ?
4)用平均值和用戶分類(lèi)規(guī)則表比較得出用戶分類(lèi)? ?
-查詢各類(lèi)用戶數(shù)量——Excel可視化? ? ??
由于缺失了商品價(jià)格部分的數(shù)據(jù),本模塊暫時(shí)沒(méi)有分析結(jié)論。
?
2.5 診斷分析
通過(guò)描述性分析得到可視化的數(shù)據(jù)后我們一般會(huì)先看一下是否符合業(yè)務(wù)常識(shí)
如:假設(shè)一個(gè)頁(yè)面的UV(瀏覽人數(shù))比PV(瀏覽次數(shù))還高,那這個(gè)數(shù)據(jù)質(zhì)量肯定是有問(wèn)題的
如果符合常識(shí)接下來(lái)我們會(huì)通過(guò)與行業(yè)平均數(shù)據(jù)和本產(chǎn)品的同比環(huán)比對(duì)比看是否正常,如果不正常就要找原因,設(shè)計(jì)解決方案,如果正常那就看是否有可以優(yōu)化的地方。
? ? ? ??
2.5.1診斷分析結(jié)論
我們首先來(lái)看一下這些描述性分析是否符合業(yè)務(wù)常識(shí)和指標(biāo)是否正常:
? ? ? ?? ? ? ?
1.活躍曲線整體為上升狀態(tài),同為周六日,12月2號(hào),3號(hào)相比11月25日,26日活躍度更高。
正常:結(jié)合描述分析4中的活躍用戶的增長(zhǎng)。
2.用戶在周六周日相比其他時(shí)間更活躍
正常:周六周日為休息日,用戶有更多時(shí)間來(lái)刷淘寶,反映在數(shù)據(jù)上就是活躍度的增加。
3.一天內(nèi)用戶活躍的最高峰期為21點(diǎn)
正常:用戶在這個(gè)時(shí)間段有空閑,996的都下班啦~
4.從2017年11月15日致2017年12月3日,活躍用戶新增38%
還需驗(yàn)證:
如果是由于新注冊(cè)用戶或者老用戶召回策略帶來(lái)的增長(zhǎng)符合常識(shí),具體還需結(jié)合新注冊(cè)用戶數(shù)據(jù)和用戶召回策略數(shù)據(jù)做驗(yàn)證。
5.從2017年11月15日致2017年12月3日,活躍用戶次日留存增長(zhǎng)18.67%,當(dāng)日的活躍用戶留存也在快速增長(zhǎng),第七日留存比次日留存高18.56%。
不符合常識(shí):因?yàn)閺拈L(zhǎng)期來(lái)看用戶都是會(huì)流失的,只是生命周期長(zhǎng)短問(wèn)題,而從淘寶的用戶行為來(lái)看同批用戶的存留數(shù)據(jù)竟然隨著時(shí)間的增加而增加。
假設(shè)場(chǎng)景可能是這樣的:用戶小A注冊(cè)了淘寶APP,第二天就不再登錄了,而第三天收到了淘寶的推薦提醒(APP消息,短信……)在消息中發(fā)現(xiàn)了自己喜歡的商品,而且還有優(yōu)惠下單買(mǎi)了,第四天又收到了淘寶的消息,還是自己喜歡的……
這里的具體數(shù)據(jù)還需要結(jié)合用戶生命周期運(yùn)營(yíng)的策略和數(shù)據(jù)做驗(yàn)證。
6.用戶從瀏覽到購(gòu)買(mǎi)整體轉(zhuǎn)化率2.3%
正常,根據(jù)之前了解到的電商數(shù)據(jù),多種客單價(jià)的商品(幾十~幾千)在一起,整體轉(zhuǎn)化率在2%~3%之間,當(dāng)然具體還需要結(jié)合歷史的同比,環(huán)比數(shù)據(jù)取看。
7.用戶從瀏覽到購(gòu)買(mǎi)的路徑主要有4條,路徑越長(zhǎng)轉(zhuǎn)化率越低。
正常:從流量的角度,每多一個(gè)步驟就會(huì)多一些用戶流失這個(gè)符合常識(shí)。
8.瀏覽量top100的商品瀏覽量呈階梯分布,越靠前的階梯之間的落差相對(duì)越大在這個(gè)階梯中的商品越少,越靠后商品瀏覽量階梯之間的落差相對(duì)越小,同階梯內(nèi)的商品越多。
待驗(yàn)證:
假設(shè)淘寶會(huì)給高轉(zhuǎn)化的爆款商品更多的曝光,商品瀏覽量呈金字塔分布是正常的。
9.瀏覽量TOP100的商品所屬類(lèi)目中,4756105,3607361,4357323三個(gè)類(lèi)目瀏覽量遠(yuǎn)超其他類(lèi)目。
還需驗(yàn)證:
——抽取購(gòu)買(mǎi)購(gòu)買(mǎi)次數(shù)判斷這個(gè)幾個(gè)類(lèi)目商品類(lèi)型是否是高頻剛需類(lèi)型的呢?
10.從商品看:有17款商品轉(zhuǎn)化率超過(guò)了1。
不正常:
還需驗(yàn)證:是否是由于用戶直接從購(gòu)物車(chē)或者商品收藏直接復(fù)購(gòu),未點(diǎn)擊商詳?
11.從類(lèi)目看:這些商品所屬類(lèi)目分布均勻,除965809,4801426,2735466,2640118,5063620,4789432,2945933這7個(gè)類(lèi)目之外,其他類(lèi)目都只有一個(gè)商品在轉(zhuǎn)化率TOP100的商品中。
還需驗(yàn)證:
是否是由于淘寶是根據(jù)“同一類(lèi)目下的高轉(zhuǎn)化商品”給用戶做推薦的?
2.5.2假設(shè)與驗(yàn)證
根據(jù)以上診斷分析我們梳理出了以下假設(shè),做假設(shè)驗(yàn)證。
? ? ? ?? ? ? ?
假設(shè)1:這些商品中有高轉(zhuǎn)化率的爆款商品
-引用“商品轉(zhuǎn)化率視圖”查詢排名前5的商品轉(zhuǎn)化率
? ? ?? ?-對(duì)比同類(lèi)目的其他商品轉(zhuǎn)化率
? ? ? ?? ? ? ?
對(duì)比瀏覽量TOP5的商品,發(fā)現(xiàn)這些商品轉(zhuǎn)化率在同一類(lèi)目下并不高,假設(shè)不成立
?
假設(shè)2:4756105,3607361,4357323三個(gè)類(lèi)目屬于高頻剛需類(lèi)目
抽取這幾個(gè)類(lèi)目的商品某買(mǎi)頻次數(shù)據(jù)驗(yàn)證
-創(chuàng)建類(lèi)目購(gòu)買(mǎi)頻次表? ? ?
? ? ? ?
-計(jì)算類(lèi)目購(gòu)買(mǎi)頻次平均值? ? ??
? ? ? ?
-查詢4756105,3607361,4357323三個(gè)類(lèi)目的購(gòu)買(mǎi)頻次??? ? ?? ? ? ?
4756105,3607361,4357323三個(gè)類(lèi)目的用戶購(gòu)買(mǎi)頻次明顯高于平均值,假設(shè)成立。
?
假設(shè)3:有部分用戶是未點(diǎn)擊商詳直接從收藏和購(gòu)物車(chē)購(gòu)買(mǎi)的。
查詢轉(zhuǎn)化率超過(guò)1的商品的用戶行為數(shù)據(jù)
? ? ? ?? ? ? ?? ? ??
用戶不是直接從收藏和購(gòu)物車(chē)購(gòu)買(mǎi)的,只是后續(xù)復(fù)購(gòu)未點(diǎn)擊商詳,假設(shè)不成立
?
假設(shè)4:淘寶推薦的商品主要是“同一類(lèi)目下的高轉(zhuǎn)化商品”
給瀏覽量TOP100的商品和轉(zhuǎn)化率TOP100的商品做匹配看其中重合的商品有多少。
? ? ? ??? ? ?
用Excel對(duì)瀏覽量TOP100的商品ID和轉(zhuǎn)化率TOP100的商品ID進(jìn)行去重,結(jié)果無(wú)重復(fù)值,假設(shè)不成立
三、結(jié)論
1)用戶活躍:用戶活躍曲線整體呈上升趨勢(shì),在一周中周六,周日活躍度比平時(shí)更高,在一天中用戶活躍曲線從凌晨4點(diǎn)開(kāi)始往上升,在中午12點(diǎn)和下午5~6點(diǎn)有兩個(gè)小低谷(吃飯),到晚上9點(diǎn)時(shí)活躍度達(dá)到頂峰。
2)用戶留存:從2017年11月15日致2017年12月3日的用戶留存數(shù)據(jù)來(lái)看,淘寶的用戶留存數(shù)據(jù)較好,活躍用戶次日留存增長(zhǎng)18.67%,當(dāng)日的活躍用戶留存也在快速增長(zhǎng),第七日留存比次日留存高18.56%。
3)用戶轉(zhuǎn)化:整體轉(zhuǎn)化2.3%,用戶從瀏覽到購(gòu)買(mǎi)的路徑主要有4條,路徑越長(zhǎng)轉(zhuǎn)化率越低。
路徑1:瀏覽→購(gòu)買(mǎi):轉(zhuǎn)化率1.45%
路徑2:瀏覽→加購(gòu)物車(chē)→購(gòu)買(mǎi):轉(zhuǎn)化率0.33
路徑3:瀏覽→收藏→購(gòu)買(mǎi):轉(zhuǎn)化率0.11%
路徑4:瀏覽→收藏→加購(gòu)物車(chē)→購(gòu)買(mǎi):轉(zhuǎn)化率0.03%
4)平臺(tái)推薦與用戶偏好:從數(shù)據(jù)集中的數(shù)據(jù)來(lái)看,排除用戶興趣偏好標(biāo)簽,淘寶給用戶用戶推送的商品主要是高頻剛需的類(lèi)目,促使用戶復(fù)購(gòu),流量回流平臺(tái)。
以上結(jié)論受數(shù)據(jù)量和數(shù)據(jù)類(lèi)型的影響,并不一定準(zhǔn)確,僅用來(lái)練習(xí)數(shù)據(jù)分析方法。
↘好文推薦:
后臺(tái)產(chǎn)品經(jīng)理入門(mén)指南(上)
產(chǎn)品經(jīng)理要懂的「技術(shù)那些事」
美團(tuán)王慧文,王興14年的帶刀護(hù)衛(wèi)
點(diǎn)個(gè)“在看”吧
總結(jié)
以上是生活随笔為你收集整理的如何用SQL分析电商用户行为数据(案例)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 优惠券最全玩法详解
- 下一篇: 跟开发对接,要了解哪些数据库知识?