用户分群与建模
? 用戶分群是指根據某些規則將人群進行細分,細分之后的每類客戶具有明顯區別于其他群體的特征。這樣就可以對同質客群單獨建模進行分析,從而提高模型的性能。通常情況下,基于客群細分的一套模型比一個用于所有客戶的單模型通常可以提高5%到10%的性能。
目錄
一.分群目的
二.如何進行分群
- 2.1 基于業務經驗
- 2.2 基于統計預測
- 2.3 基于業務需求
三.場景示例
四.總結
一、分群目的
? 分群的目的是根據組內差異小、組件差異大的特性將客群進行細分,原理上類似于無監督的聚類。因為某些單一變量雖然對整體客群有鑒別力,但不一定對特定客群也具有鑒別力。比如,年齡這個變量對整體客群的好壞有區分度,如下圖:
? 但是如果將申請樣本分為高收入組和低收入組,情況變成下圖:
? 可以看到在高收入組中,各年齡區間的差異并不明顯,區分度并不強。因此如果能替每個分組找出適合的變量與模型,就可以大幅度提升整體模型的性能。
二、如何進行分群
2.1 基于業務經驗
? 基于業務經驗是指按照歷史經驗法則先行找出可能有效的分群變量,之后再由統計分析結果驗證分群是否有效。如負債率低、DTI低的優質客群、無借款記錄信用卡少的征信類白戶、信貸賬戶多且歷史長無逾期的消費活躍年輕群體等。這種劃分方式就和用戶畫像類似,不過用戶畫像是用來做入模變量的標簽的,而客戶分群主要是用來建子模型。客戶分群后也可以作為入模變量,這就涉及到分群變量如何建模的問題,求是汪老師在文章中介紹過方法。
方案一:分群單獨建模
step 1. 對于N個分群單獨建立N個子模型。同時,根據不同分群的特點構造新特征來提升子模型性能。
step 2. 將子模型分數作為新的特征x,以及原樣本的目標變量y,訓練一個組合主模型。或者,將子模型分數校準到同一尺度,可以參考文章《信用評分卡模型分數校準》。
方案二: 加入分群變量
step 1. 加入分群變量,只訓練一個模型。
step 2. 在模型選擇上:對于樹模型而言,自動選擇分群變量進行分裂群體來擬合;對于線性評分卡模型而言,增加新的維度,在高維空間進行擬合。
2.2 基于統計預測
? 基于統計預測的方法如決策樹、聚類分析,借此找出對表現指標有預測意義的分組變量。比如以下這個例子:
? 上圖使用好壞比作為衡量分組變量間風險輪廓的指標。好壞比的計算方式如下:
1.如果區間好壞比優于整體樣本,則:
G/BIndex=區間好壞比/整體好壞比?100GG/B Index=區間好壞比/整體好壞比*100GG/BIndex=區間好壞比/整體好壞比?100G
2.如果區間好壞比低于整體樣本,則:
G/BIndex=整體好壞比/區間好壞比?100BG/B Index=整體好壞比/區間好壞比*100BG/BIndex=整體好壞比/區間好壞比?100B
? 分組的過程需要滿足各分組均涵蓋足夠多的樣本進行模型開發(至少2%)、分組間好壞比有顯著差異(差距15以上)。
? 此外還有常見的無監督聚類方法有K-means、GMM(高斯混合模型)等。其中,K-means存在隨機選擇初始質心和需設置超參數K(目標簇數)等問題,容易導致分群不穩定的現象。GMM在實際聚類時的效果往往更好,其主要思想是樣本分布可以分解為多個正態分布的組合。(此段摘自求是汪老師的文章)
2.3 基于業務需求
? 一些不滿足觀察期時間窗口要求的變量以及不在目標客群之內的變量應該予以排除。以開發信用卡評分模型為例,如下圖:
? 左側往來期間不足5個月的,因無足夠期間的賬戶歷史數據作為自變量來源,右側延滯客群適用于催收評分模型,因此只有信用開卡目前沒有延滯的客戶是目標客群。業務經驗與統計實證都表明全清戶與循環使用戶在風險程度和形態上有顯著差異。所以選擇客戶“是否使用循環”作為主要分組方式。
三.場景示例
? 利用額度使用率這一變量比較“無延滯客群”和“有延滯客群”兩個分組的表現,判定該分組方式是否合適。
? 在無延滯客群中,有超過70%的客戶集中在額度使用率小于25%,而在延滯客群中只有35%落在此區間,說明延滯客群的分布在往高額度使用率移動,絕大多數的延滯客戶有偏高的額度使用率。再以變量值26-40為例,無延滯分組顯示此類客戶表現較平均差1.28倍(好壞對比值128B),而延滯客群顯示此類客戶表現優于平均2.05倍(好壞對比值205G),因此額度使用率變量可以在不同分組中產生不同的分數。
四.總結
? 本文介紹了如何通過分群來提升風控模型性能的基本方法論,細節以及實踐方面仍有很多不足,感興趣的朋友可以讀一讀求是汪老師的文章利用樣本分群提升風控模型性能。
【作者】:Labryant
【原創公眾號】:風控獵人
【簡介】:某創業公司策略分析師,積極上進,努力提升。乾坤未定,你我都是黑馬。
【轉載說明】:轉載請說明出處,謝謝合作!~
總結
- 上一篇: Xgboost调参小结
- 下一篇: 评分模型监控