学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理
一、背景與目標(biāo)
1.1、背景
1.、行業(yè)內(nèi)競(jìng)爭(zhēng)
民航的競(jìng)爭(zhēng)除了三大航空公司之間的競(jìng)爭(zhēng)之外,還將加入新崛起的各類小型航空公司、民營(yíng)航空公司,甚至國(guó)外航空巨頭。航空產(chǎn)品生產(chǎn)過(guò)剩,產(chǎn)品同質(zhì)化特征愈加明顯,于是航空公司從價(jià)格、服務(wù)間的競(jìng)爭(zhēng)逐漸轉(zhuǎn)向?qū)蛻舻母?jìng)爭(zhēng)。
2.、行業(yè)外競(jìng)爭(zhēng)
隨著高鐵、動(dòng)車等鐵路運(yùn)輸?shù)呐d建,航空公司受到巨大沖擊。
客戶營(yíng)銷戰(zhàn)略倡導(dǎo)者Jay & Adam Curry從國(guó)外數(shù)百家公司進(jìn)行了客戶營(yíng)銷實(shí)施的經(jīng)驗(yàn)中提煉了如下經(jīng)驗(yàn):
- 公司收入的80%來(lái)自頂端的20%的客戶。
- 20%的客戶其利潤(rùn)率100%。
- 90%以上的收入來(lái)自現(xiàn)有客戶。
- 大部分的營(yíng)銷預(yù)算經(jīng)常被用在非現(xiàn)有客戶上。
- 5%至30%的客戶在客戶金字塔中具有升級(jí)潛力。
- 客戶金字塔中客戶升級(jí)2%,意味著銷售收入增加10%,利潤(rùn)增加50%。
這些經(jīng)驗(yàn)也許并不完全準(zhǔn)確,但是它揭示了新時(shí)代客戶分化的趨勢(shì),也說(shuō)明了對(duì)客戶價(jià)值分析的迫切性和必要性。
1.2、目標(biāo)
航空公司數(shù)據(jù)特征說(shuō)明
目前航空公司已積累了大量的會(huì)員檔案信息和其乘坐航班記錄。
以2014-03-31為結(jié)束時(shí)間,選取寬度為兩年的時(shí)間段作為分析觀測(cè)窗口,抽取觀測(cè)窗口內(nèi)有乘機(jī)記錄的所有客戶的詳細(xì)數(shù)據(jù)形成歷史數(shù)據(jù),44個(gè)特征,總共62988條記錄。數(shù)據(jù)特征及其說(shuō)明如表所示。
結(jié)合目前航空公司的數(shù)據(jù)情況,可以實(shí)現(xiàn)以下目標(biāo):
二、數(shù)據(jù)預(yù)處理
航空公司客戶原始數(shù)據(jù)存在少量的缺失值和異常值,需要清洗后才能用于分析。
通過(guò)對(duì)數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價(jià)為空值,票價(jià)最小值為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。
- 票價(jià)為空值的數(shù)據(jù)可能是客戶不存在乘機(jī)記錄造成。
處理方法:丟棄票價(jià)為空的記錄。
- 其他的數(shù)據(jù)可能是客戶乘坐0折機(jī)票或者積分兌換造成。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對(duì)于問(wèn)題影響不大,因此對(duì)其進(jìn)行丟棄處理。
處理方法:丟棄票價(jià)為0,平均折扣率不為0,總飛行公里數(shù)大于0的記錄。
2.1、任務(wù)步驟
準(zhǔn)備:創(chuàng)建air數(shù)據(jù)庫(kù)
1、創(chuàng)建表air_data_base
2、導(dǎo)入數(shù)據(jù)到air_data_base表
3、丟棄票價(jià)為空的記錄,將結(jié)果存儲(chǔ)到sum_yr_1_not_null表
4、丟棄平均折扣率為0.0的記錄,將結(jié)果存儲(chǔ)到avg_discount_not_0表
5、丟棄票價(jià)為0、平均折扣率不為0、總飛行公里數(shù)大于0的記錄,將結(jié)果存儲(chǔ)到sum_0_seg_avg_not_0表
三、特征構(gòu)造
原始數(shù)據(jù)中包含40多個(gè)特征,利用這些特征做些什么呢?我們又該從哪些角度出發(fā)呢?
3.1、常用客戶價(jià)值分類模型
3.1.1、RFM模型介紹
本項(xiàng)目的目標(biāo)是客戶價(jià)值分析,即通過(guò)航空公司客戶數(shù)據(jù)識(shí)別不同價(jià)值的客戶,識(shí)別客戶價(jià)值應(yīng)用最廣泛的模型是RFM模型。
- R(Recency)指的是最近一次消費(fèi)時(shí)間與截止時(shí)間的間隔。
- F(Frequency)指顧客在某段時(shí)間內(nèi)所消費(fèi)的次數(shù)。
- M(Monetary)指顧客在某段時(shí)間內(nèi)所消費(fèi)的金額
3.1.2、RFM模型結(jié)果解讀
RFM模型包括三個(gè)特征,使用三維坐標(biāo)系進(jìn)行展示,如圖所示。
- X軸表示Recency,
- Y軸表示Frequency,
- Z軸表示Monetary,
每個(gè)軸一般會(huì)分成5級(jí)表示程度,1為最小,5為最大。
3.1.3、傳統(tǒng)RFM模型在航空行業(yè)的缺陷
在RFM模型中,消費(fèi)金額表示在一段時(shí)間內(nèi),客戶購(gòu)買該企業(yè)產(chǎn)品金額的總和,由于航空票價(jià)受到運(yùn)輸距離,艙位等級(jí)等多種因素影響,同樣消費(fèi)金額的不同旅客對(duì)航空公司的價(jià)值是不同的,因此這個(gè)特征并不適合用于航空公司的客戶價(jià)值分析。
3.1.4、航空客戶價(jià)值分析的LRFMC模型
本項(xiàng)目選擇客戶在一定時(shí)間內(nèi)累積的飛行里程M和客戶在一定時(shí)間內(nèi)乘坐艙位所對(duì)應(yīng)的折扣系數(shù)的平均值C兩個(gè)特征代替消費(fèi)金額。此外,航空公司會(huì)員入會(huì)時(shí)間的長(zhǎng)短在一定程度上能夠影響客戶價(jià)值,所以在模型中增加客戶關(guān)系長(zhǎng)度L,作為區(qū)分客戶的另一特征。
本項(xiàng)目將客戶關(guān)系長(zhǎng)度L,消費(fèi)時(shí)間間隔R,消費(fèi)頻率F,飛行里程M和折扣系數(shù)的平均值C作為航空公司識(shí)別客戶價(jià)值的關(guān)鍵特征(如表 3 2所示),記為L(zhǎng)RFMC模型。
3.2、任務(wù)步驟
- 從數(shù)據(jù)清洗結(jié)果中選擇6個(gè)屬性: FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END,形成數(shù)據(jù)集,存儲(chǔ)到flfasl表中
- 構(gòu)造LRFMC 5個(gè)指標(biāo),并將結(jié)果存儲(chǔ)到lrfmc表中:
1、會(huì)員入會(huì)時(shí)間距離觀測(cè)窗口結(jié)束的月數(shù)=觀測(cè)窗口的結(jié)束時(shí)間-入會(huì)時(shí)間 [單位:月]
L = LOAD_TIME - FFP_DATE2、客戶最近一次乘坐公司飛機(jī)距觀測(cè)窗口結(jié)束的月數(shù) = 最后一次乘機(jī)時(shí)間至觀察窗口末端時(shí)長(zhǎng)[單位:月]
R = LAST_TO_END3、客戶在觀測(cè)窗口內(nèi)乘坐公司飛機(jī)的次數(shù) = 觀測(cè)窗口的飛行次數(shù) [單位:次]
F = FLIGHT_COUNT4、客戶在觀測(cè)時(shí)間內(nèi)在公司累計(jì)的飛行里程 = 觀測(cè)窗口總飛行公里數(shù) [單位:公里]
M = SEG_KM_SUM5、客戶在觀測(cè)時(shí)間內(nèi)乘坐艙位所對(duì)應(yīng)的折扣系數(shù)的平均值 = 平均折扣率 [單位:無(wú)]
C = AVG_DISCOUNT建表:
構(gòu)建5個(gè)指標(biāo):
結(jié)果查看:
總結(jié)
以上是生活随笔為你收集整理的学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 学习笔记Hive(八)—— 查询优化
- 下一篇: 学习笔记Spark(一)—— Spark