学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理
一、背景與目標(biāo)
1.1、背景
1.、行業(yè)內(nèi)競爭
民航的競爭除了三大航空公司之間的競爭之外,還將加入新崛起的各類小型航空公司、民營航空公司,甚至國外航空巨頭。航空產(chǎn)品生產(chǎn)過剩,產(chǎn)品同質(zhì)化特征愈加明顯,于是航空公司從價格、服務(wù)間的競爭逐漸轉(zhuǎn)向?qū)蛻舻母偁帯?/p>
2.、行業(yè)外競爭
隨著高鐵、動車等鐵路運輸?shù)呐d建,航空公司受到巨大沖擊。
客戶營銷戰(zhàn)略倡導(dǎo)者Jay & Adam Curry從國外數(shù)百家公司進(jìn)行了客戶營銷實施的經(jīng)驗中提煉了如下經(jīng)驗:
- 公司收入的80%來自頂端的20%的客戶。
- 20%的客戶其利潤率100%。
- 90%以上的收入來自現(xiàn)有客戶。
- 大部分的營銷預(yù)算經(jīng)常被用在非現(xiàn)有客戶上。
- 5%至30%的客戶在客戶金字塔中具有升級潛力。
- 客戶金字塔中客戶升級2%,意味著銷售收入增加10%,利潤增加50%。
這些經(jīng)驗也許并不完全準(zhǔn)確,但是它揭示了新時代客戶分化的趨勢,也說明了對客戶價值分析的迫切性和必要性。
1.2、目標(biāo)
航空公司數(shù)據(jù)特征說明
目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。
以2014-03-31為結(jié)束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內(nèi)有乘機(jī)記錄的所有客戶的詳細(xì)數(shù)據(jù)形成歷史數(shù)據(jù),44個特征,總共62988條記錄。數(shù)據(jù)特征及其說明如表所示。
結(jié)合目前航空公司的數(shù)據(jù)情況,可以實現(xiàn)以下目標(biāo):
二、數(shù)據(jù)預(yù)處理
航空公司客戶原始數(shù)據(jù)存在少量的缺失值和異常值,需要清洗后才能用于分析。
通過對數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價為空值,票價最小值為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。
- 票價為空值的數(shù)據(jù)可能是客戶不存在乘機(jī)記錄造成。
處理方法:丟棄票價為空的記錄。
- 其他的數(shù)據(jù)可能是客戶乘坐0折機(jī)票或者積分兌換造成。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對于問題影響不大,因此對其進(jìn)行丟棄處理。
處理方法:丟棄票價為0,平均折扣率不為0,總飛行公里數(shù)大于0的記錄。
2.1、任務(wù)步驟
準(zhǔn)備:創(chuàng)建air數(shù)據(jù)庫
1、創(chuàng)建表air_data_base
2、導(dǎo)入數(shù)據(jù)到air_data_base表
3、丟棄票價為空的記錄,將結(jié)果存儲到sum_yr_1_not_null表
4、丟棄平均折扣率為0.0的記錄,將結(jié)果存儲到avg_discount_not_0表
5、丟棄票價為0、平均折扣率不為0、總飛行公里數(shù)大于0的記錄,將結(jié)果存儲到sum_0_seg_avg_not_0表
三、特征構(gòu)造
原始數(shù)據(jù)中包含40多個特征,利用這些特征做些什么呢?我們又該從哪些角度出發(fā)呢?
3.1、常用客戶價值分類模型
3.1.1、RFM模型介紹
本項目的目標(biāo)是客戶價值分析,即通過航空公司客戶數(shù)據(jù)識別不同價值的客戶,識別客戶價值應(yīng)用最廣泛的模型是RFM模型。
- R(Recency)指的是最近一次消費時間與截止時間的間隔。
- F(Frequency)指顧客在某段時間內(nèi)所消費的次數(shù)。
- M(Monetary)指顧客在某段時間內(nèi)所消費的金額
3.1.2、RFM模型結(jié)果解讀
RFM模型包括三個特征,使用三維坐標(biāo)系進(jìn)行展示,如圖所示。
- X軸表示Recency,
- Y軸表示Frequency,
- Z軸表示Monetary,
每個軸一般會分成5級表示程度,1為最小,5為最大。
3.1.3、傳統(tǒng)RFM模型在航空行業(yè)的缺陷
在RFM模型中,消費金額表示在一段時間內(nèi),客戶購買該企業(yè)產(chǎn)品金額的總和,由于航空票價受到運輸距離,艙位等級等多種因素影響,同樣消費金額的不同旅客對航空公司的價值是不同的,因此這個特征并不適合用于航空公司的客戶價值分析。
3.1.4、航空客戶價值分析的LRFMC模型
本項目選擇客戶在一定時間內(nèi)累積的飛行里程M和客戶在一定時間內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值C兩個特征代替消費金額。此外,航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,所以在模型中增加客戶關(guān)系長度L,作為區(qū)分客戶的另一特征。
本項目將客戶關(guān)系長度L,消費時間間隔R,消費頻率F,飛行里程M和折扣系數(shù)的平均值C作為航空公司識別客戶價值的關(guān)鍵特征(如表 3 2所示),記為LRFMC模型。
3.2、任務(wù)步驟
- 從數(shù)據(jù)清洗結(jié)果中選擇6個屬性: FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END,形成數(shù)據(jù)集,存儲到flfasl表中
- 構(gòu)造LRFMC 5個指標(biāo),并將結(jié)果存儲到lrfmc表中:
1、會員入會時間距離觀測窗口結(jié)束的月數(shù)=觀測窗口的結(jié)束時間-入會時間 [單位:月]
L = LOAD_TIME - FFP_DATE2、客戶最近一次乘坐公司飛機(jī)距觀測窗口結(jié)束的月數(shù) = 最后一次乘機(jī)時間至觀察窗口末端時長[單位:月]
R = LAST_TO_END3、客戶在觀測窗口內(nèi)乘坐公司飛機(jī)的次數(shù) = 觀測窗口的飛行次數(shù) [單位:次]
F = FLIGHT_COUNT4、客戶在觀測時間內(nèi)在公司累計的飛行里程 = 觀測窗口總飛行公里數(shù) [單位:公里]
M = SEG_KM_SUM5、客戶在觀測時間內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值 = 平均折扣率 [單位:無]
C = AVG_DISCOUNT建表:
構(gòu)建5個指標(biāo):
結(jié)果查看:
總結(jié)
以上是生活随笔為你收集整理的学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记Hive(八)—— 查询优化
- 下一篇: 学习笔记Spark(一)—— Spark