智能风控读书笔记
1.1 信用與管理
信貸業務又稱信貸資產或貸款業務,是商業銀行和互聯網金融公司最重要的資產業務和主要贏利手段,通過放款收回本金和利息,扣除成本后獲得利潤。對有貸款需求的用戶,貸款平臺首先要對其未來的還款表現進行預測,然后將本金借貸給還款概率大的用戶。
信用管理主要包含兩個概念——信用和管理。信用意味著先買后付,即使用信用值來預支金錢以購買相應服務。管理即通過用戶信息對用戶的信用度進行評估,并根據信用情況定制風險規避策略。所謂風險控制(簡稱風控),即對用戶風險進行管理和規避的過程。
風險數據分析用于對用戶的信用風險進行管理與規避。對于預測信用較差的人,貸款機構一般是不會向其放款的,即便放款,為了抵御風險,也會給予其較高的利息與較小的貸款金額。風險數據分析中最重要的技術手段就是風控建模。
數據分析,是對已發生現象的歸納和總結,其所有的預測能力皆源于對現有數據進行整理、歸納、抽取。對歷史數據的信息使用相應的數學公式進行組合學習,即可得到模型,利用模型輸出未來事件的期望軌跡。
風險建模,屬于風險數據分析領域的分支之一,此外還有歸因分析、策略挖掘等分析方法。
1.2 風控術語解讀
-
年度百分率(Annual Percentage Rate,APR)
-
應收賬款(Accounts Receivable,AR)
-
賬齡(Month Of Book,MOB)
-
逾期天數 (Days Past Due, DPD)
-
逾期期數(Bucket)
-
逾期階段(Stage)
-
即期指標(Coincidental)
-
遞延指標(Lagged)
-
留存率(Retained Rate)
-
提現率(Withdrawal Rate)
-
額度使用率(Credit Utilization Rate)
-
復借率(Reloan Rate)
-
延滯率(Delinquent Rate)
-
不良率(Bad Rate)
-
轉呆賬率(Write-Off,WO)
-
凈損失率(Net Credit Loss,NCL)
-
負債比(Debit Burden Ratio,DBR)
-
風險等級(Risk Grade)
-
命中率(Hit Rate)
-
可用余額(Open To Buy,OTB)
-
遷徙率(Flow Rate)
-
首次還款逾期(First Payment Deliquency)
-
預期損失(Expected Loss,EL)
-
收入負載(Debt To Income,DTI)
1.3 企業信貸風控架構
風險的管控并非由一個模型或一條策略就能完成,通常需要多方人員配合,通過多環節把控,才能有效控制風險并最大化收益。常見的準入模型、額度管理模型、營銷模型、流失預警模型、催收模型等,僅僅作為相應板塊的風險管控手段,嵌入在該板塊的策略系統中使用。
首次貸款用戶會經歷申請、四要素驗證、授信與額度利率定價、多層審批、用戶提款等多個環節。不符合申請資質要求的用戶,在其中的多個環節都有可能被拒絕。而對于還款后再次貸款的復貸客戶,平臺通常會給予更好的信用評估結果,并根據歷史還款表現對其進行額度管理。
首次貸款用戶需要依次通過反欺詐引擎、信用評估引擎、人工審核的審批。信用評估引擎主要包括政策規則篩選、信用規則篩選、申請評分卡評分等步驟。政策規則包含用戶年齡、身份是否滿足法定貸款要求;信用規則通常由風險分析方法得到相應的策略規則;申請評分卡是用戶授信的主要依據,建模人員根據用戶的征信數據以及統計模型,對用戶未來的還款情況進行預估。在部分書籍中,申請評分卡屬于信用規則的子集,因為信用評分最終是用于構成部分策略的組件,并與其余策略共同部署在決策引擎之上。
審批通過的客戶中,部分客戶由于未提款而導致流失,這部分客戶是流失召回系統的主要客群之一。當用戶提款成功后,如未在約定時間內還款,即產生逾期,通常會通過催收人員實施相應的處置手段。失聯客戶通常需要根據關系網絡尋找多度聯系人,但部分平臺由于不具有相關的社交數據,因此會選擇使用第三方提供的失聯補全服務。逾期時間較長或拒絕還款的用戶將被列入黑名單,無法再次借款。催收評分卡通過預測用戶的催收處置難度,將用戶劃分為平臺催收和外部第三方催收。
首次還款周期結束且未列入黑名單的客戶,平臺允許其再次貸款。由于用戶歷史還款行為較好,因此該類客戶屬于優質客戶。如果用戶未再次貸款,則屬于優質客戶流失。因此,在流失召回的過程中,需要對此類客戶加以關注。當用戶再次申請貸款時,通常使用信用評分卡對用戶進行額度管理。如果歷史表現較好,即使申請評分卡得分較低導致其額度較低,仍會通過行為評分卡進行升額調控,反之亦然。
外部征信數據是申請評分卡中用戶的主要數據。由于復貸客戶具有歷史平臺表現,因此行為評分卡通常不會再次查詢客戶的外部數據,而是只使用歷史平臺表現作為主要數據開發模型,以節約成本。而催收評分卡同樣不會再次查詢客戶的外部征信數據,而是主要使用歷史貸款過程中,催收人員記錄的用戶表現作為主要數據。
2.1 評分卡概念
信用評分卡,即專門用來評估用戶信用的一張刻度表。評分卡的種類已非常多。根據其針對客群、用途的不同,冠以不同的名稱。
2.1.1 適用客群
- 通用評分卡(Generic Score Card):基于全行業數據,利用數據分析或經驗判斷開發的評分卡,通常應用于市場營銷、申請審批、賬戶管理、催收回收、欺詐驗證等場景。
- 定制評分卡(Customized Score Card):又稱信用局部評分卡,通常是由具體機構根據自身數據及場景需求定制的評分卡。
- 子評分卡(Children Score Card):由于各機構不只有一個產品,且單一產品中可能呈現出不同的樣本分布,通常會在定制評分卡后的細分方向上建立子評分卡。
2.1.2 用途
- 申請評分卡(Application Card):申請評分卡通常用于貸前客戶的進件審批。
- 行為評分卡(Behavior Card):為了根據貸款期間產生的數據動態調整用戶的額度。
- 催收評分卡(Collection Card):催收評分卡一般用于貸后管理,主要使用催收記錄作為數據進行建模。根據用戶的催回難度,合理配置資產處置資源。
- 流失預警評分模型:預測平臺現有存量客戶在未來某時間節點后流失的概率。覆蓋審批通過后未提款客群、還款成功后不再復貸客群等。
- 營銷評分模型:目標客群收到平臺營銷后,申請貸款服務的概率。
- 欺詐評分模型:一種用來預測用戶的借款目的不正當程度的評分模型。
2.2 建模流程
模型的本質是對現有業務問題的抽象理解。有一個事實是,凡是工業界所建立的模型,其背后都有實際的需求。因此,需要先提出問題,然后由建模人員將其抽象為可量化的數學模型。
- 模型設計:業務問題模式化、因變量設計(標簽定義)、數據集及時間段設計、樣本選取(數據集收集)。
- 模型開發:特征構造、特征變換、特征篩選、模型評估、模型部署。
- 模型監控:通過多維度的指標監控保持對線上模型的持續追蹤,以確保模型的效果和穩定性。當模型的某方面性能出現問題時,會通過模型迭代(Refit)或模型重構(Rebuild)對模型進行更新。
2.3.1 業務問題轉化
因變量設計,是指將不可解問題轉化為近似可解問題。
2.3.3 數據集切分
數據集在建模前需要劃分為3個子集:開發樣本(Develop)、驗證樣本(Valuation)、時間外樣本(Out Of Time,OOT)。其中開發樣本與驗證樣本使用分層抽樣進行劃分,以保證兩個數據集中的負樣本占比相同。通常開發樣本與驗證樣本的比值為6:4。而時間外驗證樣本通常使用整個建模樣本中時間切片最后的一段樣本。
2.3.4 樣本選擇
- 代表性(Representativeness):樣本必須能充分代表總體
- 充分性(Adequacy):樣本集的數量必須滿足一定數量要求。
- 時效性(Timeliness):在滿足樣本量充足的前提下,通常要求樣本的觀測期與實際應用時間節點越接近越好。
- 排除性(Exclusions):雖然建模樣本需要具有代表整體的能力,但某些法律規定不滿足特定場景貸款需求的用戶不應該作為樣本。
2.3.5 采樣與加權
由于負樣本通常較少,因此只對正樣本進行欠采樣處理。常見的欠采樣方法包括如下幾種。
-
隨機欠采樣(Random Subsampling):直接將正樣本隨機欠采樣至預期比例。通常將正樣本欠采樣至正負樣本比例相等,即正樣本量與負樣本量的比值為1:1。等比例抽樣屬于特殊的隨機欠采樣。
-
分層抽樣(Stratified Sampling):保證抽樣后,開發樣本、驗證樣本、時間外驗證樣本中的正負樣本比例相同。
-
算法采樣:通過使用聚類(Clustering)算法,將樣本點聚類得到符合預期個數的簇,再使用簇中樣本的平均值代表整個簇。
3.2.3 極大似然估計
最大似然估計的本質就是讓當前場景出現的值,在理論上出現的概率得到最大化。
3.3.4 標準化
-
離差標準化(Min-max Normalization)是根據變量的最大值與最小值,對原始數據進行線性變換,將變量整體取值約束為0~1之間。
-
標準差標準化(Zero-mean Normalization)對數據進行處理。這種方法是基于原始數據的均值(Mean)和標準差(Standard Deviation)進行數據的標準化。
-
分位數標準化(Quantile Normalization),它會根據中位數或者四分位數去中心化數據。
-
對于非正態分布,我們可以通過box-cox變換將其轉化為正態分布。
-
WOE
3.4.2 混淆矩陣與衍生指標
P-R曲線:根據模型的預測結果對記錄進行排序,按此順序逐個將記錄作為正樣本進行預測,計算出當前召回率、精確率。開始是精確率高,因為設置的閾值很高,只有第一個樣本(分類器最有把握是正類)被預測為正類,其他都是負類,所以精確率高,幾乎是1。而召回率幾乎是0,僅僅找到1個正類。
- 精確率(查準率):表示實際為正被分類器預測為正的概率
- 召回率(查全率):表示被分類器預測為正實際為正的概率
接收者操作曲線(Receiver Operating Characteristic,ROC)的橫坐標是假正例率(False Positive Rate,FPR),縱坐標是真正例率(True Positive Rate,TPR)。曲線下面積(Area Under Curve,AUC)定義為,坐標系中ROC曲線下的覆蓋面積。當模型ROC曲線有交叉時,AUC大的模型性能優于AUC小的模型。
- 真正例率(True Positive Rate,TPR) 表示正類中被分類器預測為正類的概率,剛好就等于正類的召回率。
- 假正例率(False Positive Rate,FPR)表示負類中被分類器預測為正類的概率,它等于1減去負類的召回率。
3.4.4 業務評價
- 群體穩定性指標(Population Stability Index,PSI)是一種用于衡量不同數據集上分布差異的指標。
- 模型PSI值可以直接反映當前月份模型預測分布與初始月份模型預測分布的差異。
- 單變量PSI是在特征篩選時使用的指標之一,專門用來衡量每一個特征的穩定性。通常當單變量PSI值大于0.02時,我們應當考慮對該特征做一些調整,或者直接刪除該特征。
- 捕獲率(Capture Rate)指的是在分數較低的幾個客群上,可以捕捉到當前樣本集中的負樣本的百分比。
3.5 上線部署與監控
-
PSI值
-
分數分布
-
線上、線下分數對比
-
模型顯著性:直接反映模型顯著性的指標有前文提到的KS值和AUC值。
4.1 辛普森悖論分群
辛普森悖論(Simpson’s Paradox)即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。換言之,變量在不同子空間中可能和目標變量形成完全不同的相關趨勢。分群方法分為經驗分群與技術分群。基于經驗的分群方法,主要是將客群按照常識進行劃分。技術型分群方法通常分為基于監督模型分群和基于無監督模型分群。
4.2 監督分群
監督分群是通過監督學習方法進行模型預測,將客群分為多個子集的方法,其中最常用的監督學習模型是決策樹(Decision Tree)。
4.2.1 決策樹原理
基于有監督模型分群,即將量化后的用戶信息帶入決策樹模型,自動挖掘有區分度的變量,并根據相關變量將客群劃分為多個子群。這種分群方法利用了樣本的標簽信息,因此屬于有監督的分群方法。常見的決策樹算法有ID3、C4.5、CART分類樹、CART回歸樹等。
4.2.3 生成拒絕規則
4.3 無監督分群
基于無監督模型分群,即通過人為判斷,將主觀認為差異性較大的變量放入無監督模型,通過聚類將不同客群區分開,如根據不同渠道、不同收入、不同學歷、不同年齡段、不同產品類型等。這種方法不使用樣本的標簽,因此屬于無監督的分群方法。常用的無監督分群方法有K均值聚類和混合高斯模型(Gaussian Mixture Model,GMM)等,其中GMM利用多個高斯分布對數據集進行擬合,在實踐中有更好的表現。
4.3.1 GMM原理
GMM是工業界使用最多的一種聚類算法。它本身是一種概率式的聚類方法,假定所有的樣本數據X由K個混合多元高斯分布組合成的混合分布生成。GMM可以看作是由K個單高斯模型組合而成的模型,這K個子模型是混合模型的隱變量。一般來說,一個混合模型可以使用任何概率分布,這里使用GMM是因為高斯分布具有很好的數學性質及良好的計算性能。
4.4 用戶畫像與聚類分析
4.4.2 K均值聚類
K均值(K-means)聚類是一種迭代的聚類算法。K均值聚類要求在建模初期確定聚類簇(Cluster)的個數。研究表明,當簇的形狀為超球面(例如二維空間中的圓、三維空間中的球)時,K 均值算法性能良好。
4.4.3 均值漂移聚類
均值漂移(Mean Shift)聚類通過感興趣區域內的數據密度變化計算中心點的漂移向量,從而移動中心點進行下一次迭代,直到到達密度最大處(相當于只改變中心點的位置,而不會選擇其他點作為中心點)。從每個數據點出發都可以進行該操作,在這個過程,統計出現在感興趣區域內的數據的次數,該參數將在最后作為分類的依據。
4.4.4 層次聚類
層次聚類是一種能夠構建有層次的簇的算法。在K均值聚類中,由于最初隨機地選擇簇,多次運行算法得到的結果可能會有較大差異,而層次聚類的結果是可以復現的。層次聚類不能很好地處理大數據,而 K 均值聚類可以。原因在于 K 均值算法的時間復雜度是線性的,而層次聚類的時間復雜度是平方級的。然而,K 均值算法抗噪聲數據的能力很差,而層次聚類可直接使用噪聲數據進行聚類分析。并且很直觀的觀察到數據的父簇與子簇,從而靈活地進行決策。
4.4.5 t-SNE聚類
t分布隨機鄰居嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)是一種可視化的無監督學習方法,以高概率用鄰近的點對相似的對象進行建模,而用相距較遠的點對不相似的對象進行建模。
4.4.6 DBSCAN聚類
帶噪聲的基于密度的空間聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一種基于密度的聚類算法。這類密度聚類算法一般假定類別可以通過樣本分布的緊密程度決定。同一類別的樣本,他們之間是緊密相連的,也就是說,在該類別任意樣本周圍不遠處一定有同類別的樣本存在。
4.4.7 方差分析
計算全局方差與簇內方差的差異,并使用全局方差做標準化。
5.1 探索性數據分析
探索性數據分析(Exploratory Data Analysis,EDA)數據集的探索性數據分析是針對當前數據集中的每一維度變量的探索性數據分析過程,是正式實施模型開發的第一步。建模人員需要通過該過程對當前建模的數據集進行細致地分析。數據集的挖掘思路通常來源于該過程。模型中的變量通常有兩種類型,分別是連續型變量與離散型變量。連續型變量是指,變量為觀測樣本所得的實際數值,有序且數值之間的大小差異具有實際含義,并且沒有經過分組處理。離散型變量是指質性變量,如字符或不具有數學意義的其余表現形式。
5.2 特征生成
5.2.1 特征聚合
第一種特征構造方法叫作特征聚合,即通過對每個樣本的變量進行各種運算,將單個特征的多個時間節點取值進行聚合。特征聚合是傳統評分卡建模的主要特征構造方法。本節將介紹實用效果較好的35種基于時間序列進行特征聚合的方法。
5.2.2 特征組合
特征組合(Feature combination)又叫特征交叉(Feature crossing),指不同特征之間基于常識、經驗、數據挖掘技術進行分段組合實現特征構造,產生包含更多信息的新特征。
5.3 特征變換
將原始特征衍生后,我們獲得了更高維度的數據。在實際建模中,為保證模型的穩定性以及模型中每個特征的取值樣本數能滿足統計要求,通常會對特征值進行分箱(Binning)處理。常見的分箱方法可分為卡方分箱、決策樹分箱、等頻分箱、聚類分箱等。通常使用雙變量圖(Bivariate graph)來評價分箱結果。注意,信貸風險分析中的雙變量圖(以下簡稱為Bivar圖),縱軸固定為負樣本占比。
5.3.1 卡方分箱
5.3.2 聚類分箱
5.3.4 箱的調整
卡方分箱可以將變量的Bivar圖中負樣本占比趨勢調整為單調趨勢,然而部分情況下,仍會有特殊值需要手動調整。
5.3.5 兩種特殊的調整方法
U型變量和缺失值。
6.1 特征初步篩選
特征的初步篩選通常從3個角度進行:1)缺失率;2)信息量;3)特征之間的相關度。通常初步篩選需要重復多次,因為隨著變量的精細化調整,其部分指標有可能增大至超過國值。如變量相關性可能隨著分箱的個數減少而顯著増大。由于特征變換過程涉及缺失值處理,通常初步篩選過程要先于特征變換過程,否則統計缺失率將失去意義。
6.1.1 缺失率
特征缺失率,即訓練樣本在當前特征上的缺失占比。由于缺失較多的特征在該維度的特征空間中沒能攜帶充分的信息,通常需要對缺失率較高的特征進行清洗。
6.1.2 信息量
信息量(Information Value,IV)定義為特征WOE編碼的加權求和。業內通常認為,當IV小于0.02時,該特征不具有有效信息;當IV在0.02至0.5之間時,該特征具有有效信息,IV越大,模型效果越好;然而當IV大于0.5時,該特征非常顯著,因此應單獨取出作為規則。也就是說,期望模型中盡可能使用區分度相對較弱的特征,將多個弱特征組合,得到評分卡模型作為決策依據之一。
6.1.3 相關性
6.2 逐步回歸
逐步回歸(Stepwise Regression)是一種線性回歸模型自變量選擇方法,其基本思想是,貪心地遍歷所有變量最優組合,以保證最終模型的變量組合為最優。該過程涉及多次F檢驗。
6.2.1 F檢驗
F檢驗又稱聯合假設檢驗(Joint Hypotheses Test),它認為,在零假設(Null Hypothesis,H0)之下,統計值應該服從F分布。F檢驗通常用來分析多參數的統計模型,以判斷該模型中的部分參數是否適合用來估計總體樣本分布。
然后比較得到的F值與查表得到的F標準值。如果F<F標準F_{標準}F標準??,代表兩個分布無顯著差異;F≥F標準F_{標準}F標準??,代表兩個分布有顯著差異。在逐步回歸的特征篩選過程中,通過將F檢驗顯著的變量逐漸引入模型,或將F檢驗不顯著的變量逐漸剔出模型,使得最終模型的變量整體顯著性較強。
6.2.2 常見逐步回歸策略
·前向選擇(Forward Selection):初始情況下,模型中只有一個F檢驗顯著性最高的變量,之后嘗試加入另一個F檢驗顯著性最高的變量。上述過程不斷迭代,直至沒有變量滿足放入模型的條件。
·后向消除(Backward Elimination):與前向選擇相反。首先將所有變量同時放入模型,然后將其中F檢驗顯著性最低的變量從模型中剔除。上述過程不斷迭代,直至沒有變量滿足剔出模型的條件。
·雙向消除(Bidirectional Elimination):將前向選擇與后向消除同時進行。模型中每加入一個自變量,可能使得某個已放入模型的變量顯著性減小。當其顯著性小于閾值時,可將該變量從模型中剔除。雙向消除即每增加一個新的顯著變量的同時,檢驗整個模型中所有變量的顯著性,將不顯著變量剔除,從而得到最優的變量組合。雙向消除集成了前向選擇與后向消除兩種策略的優點,在實踐中通常有更好的效果,因此,本書推薦使用這種方法。
6.2.3 檢驗標準
用于評價模型擬合優良性的指標有兩種:赤池信息準則(Akaike Information Criterion,AIC)和貝葉斯信息準則(Bayesian Information Criterion,BIC)。
AIC是衡量統計模型擬合優良性的一種標準,由日本統計學家赤池弘次在1974年提出,它建立在熵的概念上,提供了權衡估計模型復雜度和擬合數據優良性的標準。其中,k是模型參數個數,L是似然函數。從一組可供選擇的模型中選擇最佳模型時,通常選擇AIC最小的模型。
AIC=2k-2ln(L)AIC=2k-2ln(L)AIC=2k-2ln(L)
BIC與AIC相似,主要用于模型選擇。訓練模型時,增加參數數量,也就是增加模型復雜度,會增大似然函數,但是也會導致過擬合現象。針對該問題,AIC和BIC均引入了與模型參數個數相關的懲罰項,BIC的懲罰項比AIC的大,考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型復雜度過高。其中,k為模型參數個數,n為樣本數量,L為似然函數。kln(n)懲罰項在維數過大且訓練樣本數據相對較少的情況下,可以有效避免出現維度災難現象。
BIC=kln(n)-2ln(L)BIC=kln(n)-2ln(L)BIC=kln(n)-2ln(L)
6.3 穩定性
在實際業務中,建模人員對模型穩定性的重視程度甚至超過模型的區分能力。通常風控領域使用群體穩定性指標(Population Stability Index,PSI)衡量特征及模型的穩定性。其基本含義為:計算同一指標在兩個不同數據集上的分布差異,作為當前指標的穩定性指標。
6.4 負樣本分布圖
7.1 偏差產生的原因
風險分析的本質是使用部分樣本分布估計總體分布。在風險建模的過程中,普遍存在著一個問題——幸存者偏差(Survivorship Bias)。其含義為,使用局部樣本代替總體樣本時,局部樣本無法充分表征總體樣本的分布信息,從而得到錯誤的總體估計。
在風控架構體系中,多次涉及樣本被拒絕或客戶流失等問題。由于風險分析得到的結果認為部分樣本的預估表現較差,因此該部分樣本無法獲取有效的貸后信息,即無法參與未來的模型訓練。缺少該部分低分人群的信息,對全局樣本表示模型的影響非常大。因為當模型經過多次迭代后,其重要特征可能被逐漸弱化,甚至呈現出與原模型完全相反的負樣本分布趨勢。因此需要使用相應手段進行處理。
拒絕推斷(Reject Inference)是一種對拒絕用戶進行推理歸納,從而得到該部分樣本標簽分布的方法。常見的拒絕推斷方法分為三種:數據驗證、標簽分裂、數據推斷。
7.2 數據驗證
數據驗證,又稱為下探,即從拒絕樣本中選取部分樣本進行放款。以獲得該部分樣本的真實標簽,從而帶入評分卡模型進行監督學習。數據驗證是最有效且實施起來非常簡單的一種拒絕推斷方法。通常為獲取較為豐富的拒絕樣本標簽,可以將當前模型打分低于通過閾值的客群,按照預測分值排序后等頻劃分為10箱,然后從中分別抽取部分拒絕樣本進行放款實驗。
7.3 標簽分裂
通常評分卡模型的標簽定義方式較為統一,如歷史最大逾期天數等。標簽分裂(Label Split)方法期望將標簽定義方法,拆分為多個和原始標簽定義方法強相關的子方法。常見的標簽分裂方法包括如下兩類。
·同生表現(Cohort Performance):利用當前產品的拒絕原因、平臺其他產品線的貸后表現,或其余機構的標注信息定義拒絕樣本的偽標簽。
·多規則交叉(Multiple Rule Cross):由于規則制定通常使用IV較高的變量,其對負樣本的挑選精準度較高。
7.4 數據推斷
·已知好壞標簽(Know Good Bad,KGB)樣本:準入模型允許通過的樣本集,已知標簽。由KGB樣本訓練的模型又叫KGB模型。
·未知標簽(Inferred Good Bad,IGB)拒絕樣本:準入模型拒絕的樣本集,未知標簽。由于IGB樣本沒有標簽,通常不會用于訓練模型。在部分方法中可能會生成偽標簽,從而參與建模過程。
·全量(All Good Bad,AGB)樣本:包含KGB和IGB兩部分的全量樣本集。由該部分數據訓練得到的模型又稱AGB模型。
7.4.1 硬截斷法
一種常見的思路是,直接使用KGB模型在拒絕樣本上做預測,并將低分樣本(如分數最低的20%樣本)認為是負樣本,帶入模型進行估計,其余拒絕樣本全部視為灰色樣本,不予考慮。這種推斷方法就叫作硬截斷法(Hard Cutoff)。硬截斷法假設“逾期”與“放款”之間相互獨立。
7.4.2 模糊展開法
模糊展開法(Fuzzy Augmentation),同樣假設“逾期”與“放款”之間相互獨立。模糊展開法將每條拒絕樣本復制為不同類別、不同權重的兩條。假設當前有一個拒絕樣本,KGB模型預測其為負樣本的概率為0.8,為正樣本的概率為0.2,則分別生成兩條新樣本。第一個樣本標簽為負(‘bad_ind’=1),權重為0.8;第二個樣本標簽為正(‘bad_ind’=0),權重為0.2。將兩條樣本分別帶入 AGB 模型進行訓練。
7.4.3 重新加權法
重新加權法(Reweighting)。與前面的兩種方法不同,重新加權法不使用拒絕樣本進行學習,而僅利用其樣本分布特點,調整原KGB數據集分布權重。
7.4.4 外推法
外推法(Extrapolation)根據KGB模型在拒絕樣本上的預測結果,通過人工指定經驗風險因子,獲取不同分組上的負樣本占比。然后按照正負樣本的比例,為無標簽拒絕樣本隨機賦值為0或1。
7.4.5 迭代再分類法
迭代再分類法(Iterative Reclassification)是一種通過多次迭代,保證模型結果有效且收斂的拒絕推斷方法。其基本思想是,先使用硬截斷法為拒絕樣本的標簽賦值。隨后將具有“偽標簽”的樣本加入原KGB模型進行學習,得到部分標簽失真的AGB模型。接著使用AGB模型獲取拒絕樣本的逾期概率。之后再次使用硬截斷法,不斷重復上述過程,直至某個指標收斂。迭代再分類法的思路是啟發式的,可以使用任何指標作為判斷模型是否收斂的依據。
8.1 模型校準的意義
模型校準的本質是:建模人員通過一系列變換,使得當模型預測樣本屬于類A的概率是x時,在當前樣本集中認為該樣本屬于該類的置信度(confidence level)亦為x。即當模型預測樣本屬于某一類的概率為x時,樣本集內等于該分數的樣本,確實有占比為x的樣本標簽顯示為該類。
可靠性圖(Reliability diagram)是一種基于模型輸出的概率分布進行繪制的曲線圖,可以對模型的偏離程度進行評價。該圖的橫坐標為將模型輸出的0~1之間負樣本概率值,等距分為n箱,縱坐標為每一個n等分箱中的負樣本占比。曲線越貼合圖像的對角線,代表模型被校準得越好。
8.2.1 通用校準
為了讓決策者更好地使用模型輸出結果,并使每個客戶更好地理解其信用分數的含義,通常都期望信用評分可以滿足以上四條規則。對此,業內主要使用一種比率縮放的評分映射方法,對模型的輸出結果進行校準。該比率縮放方法稱作通用校準方法。
用如下例子來解釋。首先期望一個用戶的基礎分為650分,當這個用戶:
·非逾期的概率是逾期的概率的2倍時,加50分;
·非逾期的概率是逾期的概率的4倍時,加100分;
·非逾期的概率是逾期的概率的8倍時,加150分。
8.2.2 多模型校準
平臺審批策略通常非常依賴外部數據。如果某天外部數據突然被切斷,對業務的影響將非常大,需要立刻使用存有的數據開發新模型,以保持業務正常運轉。因此在面對不穩定數據源的場景下,需要重新思考如何進行數據源與模型變量的配置。針對對外部數據有依賴同時又擔心數據源不穩定的業務,部分平臺使用一種基于模型組合的動態模型融合方法,防患于未然。
8.2.3 錯誤分配
由于在模型訓練的過程中,存在采樣等改變標簽分布的優化操作,其直接導致的結果之一就是,在真實場景應用時,模型輸出的概率值與真實概率有偏差。在完美的假設情況下,有偏采樣是一種破壞樣本分布的操作。然而在解決實際問題時,卻對最終模型的優化有較大幫助。由樣本分布變化導致的模型偏移叫作錯誤分配(Misassignment)。
8.2.4 權重還原
在本書第2.3.5節中提到,樣本通常需要進行采樣處理。由于采樣破壞了樣本分布與真實場景分布的一致性,最終模型的概率也會有偏差。如果期望得到真實的概率值,即使是在邏輯回歸模型中,同樣也需要進行校準。
8.3 決策與應用
評分模型的建立過程除數據選取外大體相同。在應用功能上可分為信用評分、風險評分、響應評分、分期轉化率評分等。根據不同的評分,策略人員可執行差異化決策,如確定不同分數閾值來判斷是否通過、是否拒絕、確定不同的年化利率、給予不同的額度、用戶體驗是否需要簡化等。
8.3.1 最優評分切分
在不考慮利率和額度的情況下,可以只使用負樣本占比作為決策的評分指標。較為常用的方法是使用KS值作為評價指標。尋找KS值最大的分數作為cut-off。由于該cut-off的KS值最大,當分數繼續上升時拒絕部分的負樣本占比將上升。因此,該方法可以保證cut-off以下的樣本集中,負樣本占比期望最大。
8.3.2 交換集分析
KS值最大的分數雖然可以保證拒絕樣本中的負樣本最大化,但可能導致申請通過率較低。此外,第3章給出了理論上模型開發所應具備的完整流程。事實上,新版模型開發完成后,并不一定會進行上線部署,通常需要模型的效果有顯著提高,才會耗費人力進行部署。因此,需要評估新版模型與舊版模型之間的性能差異。如果相比舊模型,新模型的性能沒有顯著的提升,甚至還不如舊模型,那也就沒有重新上線部署的必要了。
在新舊模型更替過程中,需要調整風控策略,使得新模型的價值最大化。這個分析過程稱為交換集分析(Swap Set Analysis)。交換集分析的本質是,利用通過率與壞賬率之間的關系來分析模型的好壞。同樣,也可以根據通過率與壞賬率尋找合理的cut-off值。
交換集分析首先需要分別為新舊兩個模型設置cut-off,兩個模型可以將開發樣本細分為3個子客群,分別為:
·被舊模型拒絕但被新模型接受的樣本集,記為Swap-in。
·被舊模型接受但被新模型拒絕的樣本集,記為Swap-out。
·同時被新舊模型拒絕或接受的樣本集,記為No-change。該部分樣本審批狀態沒有差異,也不是分析的重點。
利用Swap-in和Swap-out兩個樣本集,可以從通過率和壞賬率兩個維度評估模型在業務中的實際表現。對于信貸業務來說,通過率與壞賬率是兩個需要綜合考量的指標。不能盲目追求放款量,亦不能只追求逾期客戶占比的最小化。由于各家平臺的收益率不同,因此兩個指標沒有統一的比較公式。在實際使用中,有以下3種常見的處理方法。
·保持通過率一致,減少壞賬率。對于迭代后的新模型,在其部署時,通常需要在保證通過率不發生明顯變化的前提下,同時期望拒絕客群中的負樣本占比明顯上升。此時需要按照歷史通過率不變設置cut-off,如歷史通過率為80%,則需要找到開發樣本集分數的20%分位點作為拒絕閾值。
·提高通過率,保持壞賬率一致。由于平臺所處的發展周期不同,業務的需求也有所不同。當平臺處于高速發展時期,其關注點并不在于總收益,而是需要迅速擴增規模,此時新的模型分數的主要用途并不在于降低壞賬率,而是在保持壞賬率穩定的情況下,提高通過率。通常將開發樣本按照分數升序排列并計算每個分數累計壞賬率,選擇壞賬率與歷史壞賬率相同的分數作為閾值。
·提高通過率,同時減少壞賬率。當模型調整后,其結果有較大提升時,可以同時滿足通過率和壞賬率兩者的需求。此時需要繪制決策曲線,橫軸為通過率,縱軸為壞賬率。通過觀察曲線走勢,選擇合理的cut-off,其形式如圖8-6所示。
一致,減少壞賬率。對于迭代后的新模型,在其部署時,通常需要在保證通過率不發生明顯變化的前提下,同時期望拒絕客群中的負樣本占比明顯上升。此時需要按照歷史通過率不變設置cut-off,如歷史通過率為80%,則需要找到開發樣本集分數的20%分位點作為拒絕閾值。
·提高通過率,保持壞賬率一致。由于平臺所處的發展周期不同,業務的需求也有所不同。當平臺處于高速發展時期,其關注點并不在于總收益,而是需要迅速擴增規模,此時新的模型分數的主要用途并不在于降低壞賬率,而是在保持壞賬率穩定的情況下,提高通過率。通常將開發樣本按照分數升序排列并計算每個分數累計壞賬率,選擇壞賬率與歷史壞賬率相同的分數作為閾值。
·提高通過率,同時減少壞賬率。當模型調整后,其結果有較大提升時,可以同時滿足通過率和壞賬率兩者的需求。此時需要繪制決策曲線,橫軸為通過率,縱軸為壞賬率。通過觀察曲線走勢,選擇合理的cut-off。
總結
- 上一篇: 正确理解精益生产(zt)
- 下一篇: 乔思伯机箱改造