日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

电商用户行为分析与挖掘(MYSQL数据分析+SPSS构建RFM模型)

發(fā)布時間:2024/7/5 数据库 60 豆豆
生活随笔 收集整理的這篇文章主要介紹了 电商用户行为分析与挖掘(MYSQL数据分析+SPSS构建RFM模型) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

毫不夸張的說在中國除了嬰幼兒及七八十以上的老年人,都有過網(wǎng)購經(jīng)歷。電商公司就如雨后春筍般迅速發(fā)展。了解用戶的網(wǎng)購行為,有助于商家定品類,定營銷方案等。利用數(shù)據(jù)分析與挖掘,爭取做到比顧客自己還了解TA自己。

文章目錄

  • 前言
  • 一、背景
    • Ⅰ 數(shù)據(jù)來源
    • Ⅱ 數(shù)據(jù)背景
    • Ⅲ 分析目的
  • 二、探索性分析
    • Ⅰ 數(shù)據(jù)導入
    • Ⅱ 數(shù)據(jù)類型
    • Ⅲ 描述性統(tǒng)計
      • 1、缺失值處理
      • 2、異常值處理
      • 3、重復值處理
  • 三、數(shù)據(jù)分析
    • Ⅰ 商品銷售規(guī)律
      • a、時間
      • b、日期
      • c、商品品類
      • d、國家
    • Ⅱ 用戶行為習慣
      • a、購買排行
      • b、退貨排行
    • Ⅲ 數(shù)據(jù)挖掘
      • RFM模型

一、背景

Ⅰ 數(shù)據(jù)來源

該數(shù)據(jù)集來自The UCI Machine Learning Repository,為了更貼合我的分析目的,我自己在這個基礎進行了一些修改。對不需要的數(shù)據(jù)進行了刪除,添加了一些需要的數(shù)據(jù)。

Ⅱ 數(shù)據(jù)背景

該數(shù)據(jù)集是英國某電商在2010-12-01到2011-12-09的全部在線銷售數(shù)據(jù),采用的是我進行整改后的數(shù)據(jù),包含541904個樣本和九個特征值,分別是發(fā)票編號,商品品類,購買日期,購買時間,數(shù)量,單價,總價,客戶編號,國家。發(fā)票編號前面有c的訂單為退貨,數(shù)據(jù)為負的也代表退貨。

Ⅲ 分析目的

二、探索性分析

Ⅰ 數(shù)據(jù)導入

一、創(chuàng)建數(shù)據(jù)表

CREATE TABLE `users` (`InvoiceNo` varchar(30) DEFAULT NULL,`GOODS` varchar(30) DEFAULT NULL,`Dates` date DEFAULT NULL,`Times` time DEFAULT NULL,`Quantity` int(11) DEFAULT NULL,`UnitPrice` float DEFAULT NULL,`Total` float DEFAULT NULL,`CustomerID` varchar(30) DEFAULT NULL,`Country` varchar(30) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8

二、插入數(shù)據(jù)

LOAD DATA INFILE 'D:UsersBehavior.csv' INTO TABLE users CHARACTER SET utf8 FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '"' LINES TERMINATED BY '\n' ignore 1 lines;

Ⅱ 數(shù)據(jù)類型

DESCRIBE users; -- 或者 DESC users; -- 或者 SHOW COLUMNS FROM users;

Ⅲ 描述性統(tǒng)計

a.購買

SELECT MIN(DISTINCT Quantity)AS 最小值,MAX(DISTINCT Quantity)AS 最大值,AVG(Quantity)AS 平均值 FROM users WHERE Quantity>0 UNION SELECT MIN(DISTINCT total),MAX(DISTINCT total),AVG(total)FROM users WHERE total>0 UNION SELECT MIN(DISTINCT unitprice),MAX(DISTINCT unitprice),AVG(unitprice) FROM users;


b.退貨

SELECT MIN(DISTINCT Quantity)AS 最大值,MAX(DISTINCT Quantity)AS 最小值,AVG(Quantity)AS 平均值 FROM users WHERE Quantity<0 UNION SELECT MIN(DISTINCT total),MAX(DISTINCT total),AVG(total)FROM users WHERE total<0;

## Ⅳ 數(shù)據(jù)預處理

1、缺失值處理


不存在缺失值,不需要進行額外處理

2、異常值處理

a、價格,看是否有負數(shù)

SELECT unitprice FROM users WHERE unitprice<0;


只有兩個為負數(shù)的價格,直接刪除。

DELETE FROM users WHERE unitprice<0;

b、時間,看有沒有超過時間范圍的

SELECT MIN(dates),MAX(dates) FROM users;


時間范圍正確,數(shù)據(jù)較干凈。

3、重復值處理

由于在這次數(shù)據(jù)中,一張發(fā)票編號可能對應多種商品,所以允許重復值的存在。沒有設立“主鍵”。

三、數(shù)據(jù)分析

Ⅰ 商品銷售規(guī)律

a、時間

1)哪個時間段購買最多,哪個最少。

SELECT times,COUNT(InvoiceNo)FROM users WHERE Quantity>0 GROUP BY times ORDER BY COUNT(invoiceno)DESC;


結果顯示,在下午十二點到四點左右是訂單最多的時候,早上六七點和晚上六七點是訂單最少的時候,可根據(jù)這個時間規(guī)律合理安排客服人員,快速處理訂單。
2)哪個時間段退貨最多,哪個最少。

SELECT times,COUNT(InvoiceNo)FROM users WHERE Quantity<0 GROUP BY times ORDER BY COUNT(invoiceno)DESC;


結果顯示,在上午十二點到下午兩點左右是退貨訂單最多的時候,早上六點到八點和晚上六七點是退貨訂單最少的時候,可根據(jù)這個時間規(guī)律合理安排客服人員,快速處理訂單。
綜合來說就是上午應該讓處理退貨能力強的客服值班,爭取讓退貨訂單少一點;下午則促成訂單能力強客服值班,最大可能促成多的訂單。

b、日期

1)購買

SELECT dates,SUM(Quantity)AS 日購買量,SUM(total)AS 日購買金額 FROM users WHERE Quantity>0 GROUP BY dates ORDER BY SUM(quantity)DESC;


觀察結果發(fā)現(xiàn),在第三第四季度銷量遙遙領先,推測可能是在兩個季度促銷力度較大,也有可能是商品屬性決定。
2)退貨

SELECT dates,SUM(Quantity)AS 日購買量,SUM(total)AS 日購買金額 FROM users WHERE Quantity<0 GROUP BY dates ORDER BY SUM(quantity);


基本上退貨與售出數(shù)量成正比關系,但是前面數(shù)據(jù)存在幾個異常數(shù)據(jù)。重點觀察這幾個數(shù)據(jù)找出原因,看是偶然原因,還是必然。找到造成其異常的本質(zhì),從根源解決問題。

c、商品品類

1)購買訂單

SELECT goods,SUM(Quantity)FROM users WHERE Quantity>0 GROUP BY goods ORDER BY SUM(Quantity)DESC;


A類賣出最多,在對庫存進行管理的時候,A類產(chǎn)品可多進一些,根據(jù)售賣規(guī)律找到庫存臨界點,一到那個點就趕快進貨。
2)退貨訂單

SELECT goods,SUM(Quantity)FROM users WHERE Quantity<0 GROUP BY goods ORDER BY SUM(Quantity);


B類產(chǎn)品退貨最多,但是只從數(shù)據(jù)其他品類也相差不大,聯(lián)系實際售出則會發(fā)現(xiàn)B、E的退貨率較高,可進行訂單跟蹤為什么會有這么高的退貨率。是商品質(zhì)量不行,還是市場不受歡迎等原因。

d、國家

1)售出

SELECT country,SUM(Quantity),SUM(total)FROM users WHERE Quantity>0 GROUP BY Country ORDER BY SUM(total)DESC;



排名前十和后十,差距較明顯,呈現(xiàn)一個兩極趨勢,可研究前十的剩余市場價值,及后十為什么銷售只有這么一點,為什么只有這么一點銷售額,比如廣告營銷不到位、本身市場已經(jīng)飽和。

Ⅱ 用戶行為習慣

a、購買排行

SELECT customerid,country,SUM(Quantity),SUM(total)FROM users WHERE Quantity>0 GROUP BY customerid ORDER BY SUM(total)DESC;


符合二八定律,即20%的客戶貢獻了80%的銷售額。采用多項會員優(yōu)惠措施維護好老客戶,贈券等開發(fā)新客戶。

b、退貨排行

SELECT customerid,country,SUM(Quantity),SUM(total)FROM users WHERE Quantity<0 GROUP BY customerid ORDER BY SUM(total);


對比來看,購買多的客戶也可能退貨多,重點關注這些客戶為什么退貨,做好售后服務,增強黏性。

Ⅲ 數(shù)據(jù)挖掘

RFM模型

1)利用SPSS中針對營銷行為的直銷模塊完成RFM分析,將數(shù)據(jù)庫中的users表導入到SPSS中。

2)選擇【直銷】【選擇方法】,在【直銷】對話框中,單擊【幫助標識我的最佳聯(lián)系人(RFM分析)】,然后單擊【繼續(xù)】按鈕。【RFM分析:數(shù)據(jù)格式】對話框中選擇【交易數(shù)據(jù)】。在【交易數(shù)據(jù)RFM分析】的【變量】選項卡中,將變量移動到對應的位置,如圖所示。

3)在【輸出】選項卡中,勾選全部選項。然后點擊【確認】。隨后生成了如下的數(shù)據(jù)文件。

輸出結果中“RFM分箱計數(shù)”圖,顯示了分箱分布。每個條形都表示被賦予每個組合RFM得分的客戶數(shù)。希望獲得相當均勻的分布,即所有(或大多數(shù))條形的高度大致相同,但其實也會產(chǎn)生一定程度的偏差。從分箱結果來看,分箱的頻數(shù)分布相對均勻。

觀察值處理摘要。對2305個客戶進行分析,沒有缺失值。

RFM交叉表。是將“RFM分箱計數(shù)”圖,以表格的形式展示出來。

RFM熱圖,用顏色深淺表示交易金額的大小。可以發(fā)現(xiàn),隨著最后一次交易間隔的得分和交易總次數(shù)的得分的分值越大,顏色越深,即右側(cè)的顏色比左側(cè)深,上方的顏色比下方深,說明客戶最近一次交易時間間隔越近,交易次數(shù)越多,其平均交易金額越多。

“RFM分布直方圖”。顯示了最近一次交易時間、交易總次數(shù)和交易金額的頻率分布,以此來判斷各自的客戶人群分布的情況,橫軸的排列順序較小的值在左邊,較大的在右邊,頻率和貨幣兩項的橫坐標是對數(shù)刻度。

“RFM散點圖”,是最近一次交易時間、交易總次數(shù)和交易金額之間的散點圖。通過散點圖可以清晰、直觀地看到三個分析指標兩兩之間的關系。可以看出,交易總次數(shù)和交易金額存在一定程度上的正相關性,而最近一次交易時間和另外兩個分析指標之間的存在較為明顯的正相關性,但相關性較弱。

對評分進行描述統(tǒng)計。結果如下表所示。更多關注的是均值。

將每個客戶的R_S,F_S,M_S與均值比較,如果低于均值就定義為“低”,如果高于均值就定義為“高”。

在【轉(zhuǎn)換】菜單中的【重新編碼為不同變量】,分別將最后一次交易間隔的得分,交易總次數(shù)的得分,交易總金額的得分的值按“高”與“低”確定新的變量,“高”用2表示,“低”用1表示。
【轉(zhuǎn)換】菜單中的【計算變量】:
(1)單擊“轉(zhuǎn)換”菜單,選擇“計算變量”,彈出“計算變量”對話框,在“目標變量”下的方框中輸入“客戶分類”,在右側(cè)的“數(shù)字表達式”下的方框中輸入“1”,先生成“客戶分類=1”的數(shù)據(jù)。
(2)單擊左下方的“如果”,彈出“計算變量:if個案”對話框,選擇“在個案滿足條件時包括”項。
(3)在右側(cè)的表達式中輸入“R_S分類=2&F_S分類=2&M_S分類=2”,就是上面表格的三個分類定義,輸入完成之后,單擊繼續(xù)按鈕,返回,單擊“確定”按鈕,這樣滿足條件的個案,它的“客戶分類”就是1了,然后重復上面的步驟,知道8個分類全部完成。

在【數(shù)據(jù)】菜單中的【定義變量屬性】中,將1-8分別定義為8種客戶類型。


圖形圖表構造器



重點挽留客戶及潛在客戶、一般保持客戶、一般價值客戶占比達到70%。說明與客戶之間黏性不足,可開發(fā)的客戶價值還很高,需要加大運營力度提高銷售額。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結

以上是生活随笔為你收集整理的电商用户行为分析与挖掘(MYSQL数据分析+SPSS构建RFM模型)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。