python轮胎_如何用数据分析方法剖析途虎轮胎数据
前言
本次分析只是用途虎養(yǎng)車網(wǎng)案例分享數(shù)據(jù)學習方法和方法論,禁止用作商業(yè)目的,同時聲明數(shù)據(jù)與關鍵指標未必真實有效。
概述
筆者將通過以下環(huán)節(jié),展示整個過程。
涉及知識:
結(jié)構(gòu)化思維,描述性分析,探索性分析,相關性分析,python數(shù)據(jù)采集,python和mysql數(shù)據(jù)清洗,python、Excel和Tableau數(shù)據(jù)可視化
分析流程:
第一部分:需求分析/定義目標
數(shù)據(jù)分析的第一步也是最關鍵的一步,就是“如何將一個抽象的命題拆分為一個可量化的命題”,所謂量化管理。
1.1 思考命題
命題:分析途虎養(yǎng)車網(wǎng)品牌輪胎銷售數(shù)據(jù)
問題1:為什么要分析這個命題,可以解決什么問題,能帶來什么價值?
答:命題來源于這樣一個假設,如果公司想模仿途虎做一個自營電商平臺,也銷售品牌輪胎,我能夠提供什么建議。
本案例,筆者分析的目標公司是途虎養(yǎng)車,截止目前為止已獲得D輪融資,是汽車后市場B2C自營電商的唯一的第一梯隊,本命題通過分析其輪胎銷售數(shù)據(jù),更深入的挖掘用戶偏好,銷量分布,營收分布,價格分布。如果有需要,還可以結(jié)合做行業(yè)分析,對比綜合電商京東和天貓,做一個更宏觀主題分析。
問題2:因變量是什么,自變量是什么
答:自營電商就是要盈利,而盈利需要通過銷量,價格和成本獲得,此處成本不可獲取,因此因變量定義為營收、銷量和價格。
影響銷量因素有很多,如會員活動和社區(qū)活動,影響價格的因素也有很多,主要有成本導向定價和需求導向定價,此處上述因素均不可獲取,只有產(chǎn)品本身屬性數(shù)據(jù),因此自變量定義為產(chǎn)品本身的屬性,即輪胎品牌,產(chǎn)品規(guī)格,載重指數(shù),速度級別,輪胎類型,輪胎花紋,是否缺氣保用等。
最后轉(zhuǎn)化為以下具體的問題
1 哪些品牌銷售市場更好,其輪胎屬性優(yōu)先度如何。2 途虎銷售數(shù)據(jù),品牌貢獻度如何,是否存在二八定律。
3 哪些品牌營收數(shù)據(jù)更好,其輪胎屬性優(yōu)先度如何。
4 途虎營收數(shù)據(jù),品牌貢獻度如何,是否存在二八定律。
5 途虎價格數(shù)據(jù),各品牌價格分布如何,價格區(qū)間分組分布。
6 用戶消費水平是怎樣的,品牌消費區(qū)間分布如何。
7 途虎品牌輪胎,按照銷量和營收分群分析。
8 途虎品牌輪胎, NMPS分類分析。
9 影響平臺營收、銷量、獲得評分的因素有哪些,排序如何。
10 根據(jù)銷量,價格,評分對途虎輪胎ID聚類分析。
1.2 結(jié)構(gòu)化拆分命題
結(jié)構(gòu)化拆分是將與事物有關的各個事件,按照層級關系,以樹狀圖的形式表現(xiàn)出來的一種工作方式。其拆分原則是,各事件之間相互獨立,事件拆分至最小粒度為止,拆分分析層次和顆粒度不同,分析價值也存在差異。
1.2.1 描述性分析
描述性數(shù)據(jù)分析類似于用一些特征去概括事物,包含集中趨勢分析和離中趨勢分析。
前者研究的是數(shù)據(jù)的集中程度,主要包含平均數(shù)、中位數(shù)、眾數(shù)、四分位數(shù)、標準差和變異系數(shù)。后者研究的是數(shù)據(jù)的離散程度,主要包含極距、四分位距、方差、標準差、標準分、均方誤差、均方根值、均方根誤差和變異系數(shù)。
此外,還可以通過繪制核密度曲線,觀察數(shù)據(jù)分布形狀是左偏,右偏,或是正態(tài)。
問題:哪些指標是最關鍵的指標
答:營收、銷量和價格。
1.2.2 探索性分析
探索性分析師結(jié)合數(shù)學或業(yè)務模型,發(fā)現(xiàn)數(shù)據(jù)隱形存在的規(guī)律。本報告模擬電商行業(yè)RFM模型提出品牌分群分析和NMPS分析,試圖從多維度對品牌輪胎分群處理。
問題:維度是什么
答:營收、銷量、價格和評分。
1.2.3 相關性分析
相關性分析分為兩個部分:
一是銷量/營收/價格相關性分析,二是銷量/營收與均值價格關系。
因變量選擇
因變量1:營收 = 單一途虎ID價格 * 單一途虎ID銷量
因變量2:銷量
因變量3:價格
選取營收作為因變量,目的在于找出哪些自變量與營收呈現(xiàn)正相關,相關程度如何,投資回報率最大。
選取銷量作為因變量,目的在于找出哪些自變量與銷量呈現(xiàn)正相關,從而有利于品類存儲和品類營銷。
選取價格作為因變量,目的在于找出輪胎哪些屬性與價格呈現(xiàn)正相關,從而幫助產(chǎn)品定價。
自變量處理
輪胎屬性數(shù)據(jù)屬于分類變量,二維數(shù)據(jù)已0/1數(shù)據(jù)變換,多維分類數(shù)據(jù)已one-hot編碼虛擬變量變換,數(shù)值型數(shù)據(jù)已均值標準化。
計算相關系數(shù)矩陣
矩陣因變量和自變量之間的相關系數(shù)已通過斯皮爾曼相關系數(shù)獲得。
第二部分:數(shù)據(jù)獲取
根據(jù)第一部分因變量和自變量數(shù)據(jù),通過python采集數(shù)據(jù)
2.1 爬蟲層次結(jié)構(gòu)
2.2 爬蟲代碼
此處省略
2.3 爬蟲結(jié)果
第三部分:數(shù)據(jù)預處理
3.1 數(shù)據(jù)集成
數(shù)據(jù)集成就是將不同來源的數(shù)據(jù)匯集在一起,統(tǒng)一不同來源數(shù)據(jù)的矛盾之處和刪除冗余數(shù)據(jù)
''' 數(shù)據(jù)集成的意思是將不同來源的數(shù)據(jù)匯集在一起,放在同一個地方,如數(shù)據(jù)倉庫的過程 ''' tuhu_df = pd.DataFrame() tuhu_part01 = pd.read_csv(open(r'E:點評數(shù)據(jù)途虎輪胎價格爬蟲原始數(shù)據(jù)_part01.csv',encoding='utf8')) tuhu_part02 = pd.read_csv(open(r'E:點評數(shù)據(jù)途虎輪胎價格爬蟲原始數(shù)據(jù)_part02.csv',encoding='utf8')) tuhu_part03 = pd.read_csv(open(r'E:點評數(shù)據(jù)途虎輪胎價格爬蟲原始數(shù)據(jù)_part03.csv',encoding='utf8')) tuhu_part04 = pd.read_csv(open(r'E:點評數(shù)據(jù)途虎輪胎價格爬蟲原始數(shù)據(jù)_part04.csv',encoding='utf8')) tuhu_list = [tuhu_part01,tuhu_part02,tuhu_part03,tuhu_part04] tuhu_df = tuhu_df.append(tuhu_list,ignore_index=True) tuhu_df.head(3)3.2 數(shù)據(jù)規(guī)約
數(shù)據(jù)規(guī)約包含屬性規(guī)約和數(shù)值規(guī)約,就是創(chuàng)建新屬性維數(shù),刪除非必要維數(shù)降維。
本報告結(jié)合業(yè)務,還需處理的特征是品牌、規(guī)格尺寸、載重指數(shù)、速度級別和評分字段
3.2.1 brand特征
brand數(shù)據(jù),“/”前面的數(shù)據(jù)就是品牌數(shù)據(jù)
# brand # 看一下品牌有多少種品牌數(shù)據(jù) print(len(tuhu_data.brand.unique())) tuhu_data.brand.value_counts()3.2.2 guige特征
根據(jù)業(yè)務經(jīng)驗規(guī)格尺寸是由橫截面寬度,高寬比,R,輪胎內(nèi)經(jīng)尺寸組成的,此處數(shù)據(jù)規(guī)約時新增三個特征
''' 輪胎規(guī)格 = 橫截面寬度+高寬比+R+輪胎內(nèi)徑尺寸 # 根據(jù)這個定義,可以增加三個字段,由于R和"/"是篩選字段的數(shù)據(jù),先觀察一些沒有這兩個標志的數(shù)據(jù)有多少 '''3.2.3 speed_level特征
''' 根據(jù)業(yè)務知識可知,速度級別也是分類數(shù)據(jù),前面英文字母代碼是其分類標志 ''' # 先查看總計有多少種標志 print('速度級別總計有多少個',len(tuhu_data.speed_level.unique())) tuhu_data.speed_level.value_counts()3.2.4 score特征
根據(jù)途虎網(wǎng)站評分機制,評分特征“/”前面的數(shù)據(jù)即是評分值
tuhu_data['score'] = tuhu_data['score'].map(lambda x:x.split('/')[0])3.2.5 新增特征
3.3 數(shù)據(jù)清洗
數(shù)據(jù)清洗主要包含去重、缺失值處理和異常值處理。首先需要結(jié)合業(yè)務知識定標準,什么是重復值,什么是缺失值,什么是異常值,還可以結(jié)合業(yè)務系統(tǒng)和流程設計分析缺失值和異常值產(chǎn)生原因,最后改善數(shù)據(jù)質(zhì)量。
缺失值和異常值篩選出來后,需要給出處理方法,主要但不限于不處理,剔除,網(wǎng)絡采集,第三方采集和數(shù)據(jù)插補。
3.3.1 去重
'' 在數(shù)據(jù)清洗過程中,發(fā)現(xiàn)存在重復數(shù)據(jù),需要去重 '''3.3.2 數(shù)據(jù)類型觀測和轉(zhuǎn)換
3.3.3 描述性統(tǒng)計分析
3.3.4 缺失值觀測和處理 # 缺失值觀測 tuhu_data.isnull().sum()# 缺失值處理 ''' 以上數(shù)據(jù)可知輪胎是特點存在缺失數(shù)據(jù),且數(shù)據(jù)只有缺氣保用輪胎和非缺氣保用輪胎的差別, 因此對此類數(shù)據(jù)進行二值變換,1表示缺氣保用,0表示非缺氣保用,這里先不替換 '''3.3.5 異常值觀測和處理
(1)通過簡單統(tǒng)計分析:通過最大最小值判斷,變量取值是否在合理范圍內(nèi)。(2)3σ原則(正態(tài)分布):95.4%數(shù)據(jù)在距離均值2個標準差范圍內(nèi)。
(3)箱型圖分析:箱型圖提供了識別異常值的一個標準。正常值介于(Q1 -1.5IQR,
Q3+1.5IQR),Q1 稱為下四分位數(shù),Q3 稱為上四分位數(shù);IQR稱為四分位數(shù)
間距,IQR=Q3-Q1,正常值之外的,即是異常值。
以上數(shù)學分析方法,結(jié)合業(yè)務經(jīng)驗判斷是否為離群點,以及離群點分析
# 獲取異常值數(shù)據(jù),結(jié)合業(yè)務經(jīng)驗評估數(shù)據(jù)是否異常 ''' 找出所有品牌異常值索引,便于篩選此類數(shù)據(jù) '''根據(jù)描述統(tǒng)計分析可知,輪胎價格最高是8888,根據(jù)業(yè)務經(jīng)驗,這種價格存在的,但比較少見。 一般只存在于蘭博基尼和勞斯萊斯等超高端豪華車,且改價格條件下,規(guī)格一般更高。此處,暫不做數(shù)據(jù)刪除。
3.4 數(shù)據(jù)存儲
3.5 數(shù)據(jù)變換
數(shù)據(jù)變換包含簡單數(shù)據(jù)變化,規(guī)范化,連續(xù)屬性離散化。
簡單數(shù)據(jù)變換是對原始數(shù)據(jù)進行函數(shù)處理,比如說甲方和l對數(shù)運算,規(guī)范化主要是離差標準化、0-均值標準化、小數(shù)定標規(guī)范化,連續(xù)屬性離散化是對數(shù)據(jù)分群處理。
本報告采用0-均值規(guī)范化
第四部分:數(shù)據(jù)分析
1 哪些品牌銷售市場更好,其輪胎屬性優(yōu)先度如何。
-- 哪些品牌銷售市場更好 SELECT brand,SUM(numper) AS total_sales FROM tuhu_price_tbl GROUP BY brand ORDER BY total_sales DESC LIMIT 5; -- 哪些品牌銷售市場更好,其載重指數(shù)優(yōu)先度如何 SELECT t.brand, t.load_index, SUM(t.numper) AS total_sales FROM tuhu_price_tbl AS t INNER JOIN (SELECT brand,SUM(numper) AS total_sales FROM tuhu_price_tbl GROUP BY brand ORDER BY total_sales DESC LIMIT 5) AS m ON t.brand = m.brand GROUP BY brand, load_index ORDER BY brand, total_sales DESC;# 哪些品牌銷售市場更好,其規(guī)格尺寸優(yōu)先度如何 guige_merge_df = pd.merge(tuhu_data,num_sum_df,on=['brand','guige']) guige_merge_df = guige_merge_df.loc[:,['brand','guige','num_sum']] # 去重 guige_merge_df.drop_duplicates(subset=['brand','guige','num_sum'],inplace=True) # 排序,1表示升序,0表示降序 guige_merge_df.sort_values(by=['brand','num_sum'],ascending=[1,0],inplace=True) # 篩選 guige_merge_df.groupby(['brand']).head(3)2 途虎銷售數(shù)據(jù),品牌貢獻度如何,是否存在二八定律。
SELECT brand, SUM(numper) AS total_sales,ROUND(SUM(numper)/(SELECT SUM(numper) FROM tuhu_price_tbl),3) AS ratio FROM tuhu_price_tbl GROUP BY brand ORDER BY ratio DESC;-- 子查詢 SELECT m.brand, m.total_sales, (SELECT SUM(n.ratio) FROM (SELECT brand, SUM(numper) AS total_sales,ROUND(SUM(numper)/(SELECT SUM(numper) FROM tuhu_price_tbl),3) AS ratio FROM tuhu_price_tbl GROUP BY brand ORDER BY ratio DESC) AS n WHERE m.ratio <= n.ratio) AS total_ratioFROM (SELECT brand, SUM(numper) AS total_sales,ROUND(SUM(numper)/(SELECT SUM(numper) FROM tuhu_price_tbl),3) AS ratio FROM tuhu_price_tbl GROUP BY brand ORDER BY ratio DESC) AS m ORDER BY total_ratio;3 哪些品牌營收數(shù)據(jù)更好,其輪胎屬性優(yōu)先度如何。
-- 途虎主營輪胎品牌銷售營收 SELECT brand,SUM(price*numper) AS total_money FROM tuhu_price_tbl GROUP BY brand ORDER BY total_money DESC;-- 品牌速度級別營收數(shù)據(jù) SELECT t.brand, t.speed_level, sum(t.money) AS sum_money FROM tuhu_price_tbl AS t INNER JOIN (SELECT brand,SUM(price*numper) AS total_money FROM tuhu_price_tbl GROUP BY brand ORDER BY total_money DESC LIMIT 5) AS m ON t.brand = m.brand GROUP BY brand, speed_level ORDER BY brand, sum_money DESC;4 途虎營收數(shù)據(jù),品牌貢獻度如何,是否存在二八定律。
5 途虎價格數(shù)據(jù),各品牌價格分布如何,價格區(qū)間分組分布。
6 用戶消費水平是怎樣的,品牌消費區(qū)間分布如何。
6.1 品牌輪胎君之價格排序
6.2 研究用戶價格選擇區(qū)間,對價格敏感點
7 途虎品牌輪胎,按照銷量和營收分群分析。
7.1 模擬客戶分群,依靠消費次數(shù)和總消費金額對數(shù)值對輪胎品類分群
7.2 銷量與價格分析
8 途虎品牌輪胎, NMPS分類分析。
模擬電商行業(yè)RFM分析,模型對品牌輪胎分群,以購買數(shù)量 N,消費總金額M,品牌消費單價 P,品牌 評分 S,對輪胎品類分群。
''' 由于不存在用戶行為信息,本小結(jié)模擬客戶分析中的RFM分析 購買數(shù)量N--可以認為是市場需求 消費總金額M--可以認為是市場潛力 品牌消費單價P--可以認為是高質(zhì)量高消費水平,高客單產(chǎn)品 品牌評分S-- 可以認為是車主對輪胎的評分,是高推薦的代表 '''9 影響平臺營收、銷量、獲得評分的因素有哪些,排序如何。
(1)相關性分析前,二維分類變量已經(jīng)使用0/1變換,多維分類變量已經(jīng)
采用one-hot編碼虛擬變量變換,數(shù)值型數(shù)據(jù)均值標準化。
(2)以從營收、銷量和價格為維度,分析自變量的相關性,著重分析相關系數(shù),
因變量 與均值價格的關系。
10 聚類分析
根據(jù)銷量,價格和評分對途虎_ID聚類分析
第五部分:數(shù)據(jù)可視化
本報告主要展示的是分布、組成、比較和練習,因此主要圖形是直方圖、核密度曲線、箱型圖、樹狀圖、條形圖、堆積圖、柏拉圖和折線圖。
第六部分:撰寫數(shù)據(jù)報告
報告結(jié)構(gòu)如下:
1 分析背景和目的2 分析方法和過程
3 結(jié)論和建議
鏈接:
https://pan.baidu.com/s/1oWnj-Tw_1IhwpkUqNjnObA?pan.baidu.com提取碼:
備注:1 本報告不是演示所用,只是為方便閱讀,因此在單頁PPT文字轉(zhuǎn)述與PPT存在重復,PPT字體大小也不為演示所用。
2 報告主要是展示數(shù)據(jù)分析方法論和數(shù)據(jù)分析方法,有些地方意在告訴讀者,筆者掌握某項技能 ,而沒有簡練純粹的表達。
總結(jié)
以上是生活随笔為你收集整理的python轮胎_如何用数据分析方法剖析途虎轮胎数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果x相机使用技巧(苹果官网报价)
- 下一篇: python的线性链表_Python线性