分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标
前言:
當一張評分卡構建完成時,篩選出一組特征生成了分數,我們會想要知道這個分數是否靠譜,即是否可以依賴這個分數將好壞客戶區分開來,這個時候就需要評判評分卡有效性的指標。
測量評分卡好壞區分能力的指標有許多,本文就為大家介紹幾個常用的定量指標:
1. 散度(分數為連續函數)與信息比率(IV);
2. KS值
在這篇文章當中,花了極大的筆墨從數學的角度證明了KS值的存在性和函數性質問題:
為什么F(s|B)為凹函數、F(s|G)為凸函數?
為什么F(s|B)-F(s|G)存在極大值(最大值)?
為什么F(s|B)曲線在F(s|G)曲線之上?
3. ROC曲線、AUROC值與GINI系數。
----------------------------------------------------------------------------------
一、 散度與IV值
1.1 散度
散度為信息比率的連續版本。而評分卡分數是基于有限樣本計算出的分數分布,并不一定是完全連續函數,所以就衍生出了離散版本的散度----信息比率IV。
1.3 IV值的應用
在實際應用當中,IV值通常用來篩選變量,IV值越大,該變量的好壞區分能力越強。在評分卡建模的過程中,利用IV值篩選變量也是非常重要的一個環節。
從IV值的公式中,易得變量的分組越多,IV值越大。但是分組分的太多,就會使得每個分組的數據量變少,導致細項分組的分布不穩定。所以,我們在使用IV值篩選變量的時候,不能為了提高IV值一味地將分箱的數目提高,也要兼顧變量的業務含義和分布的穩定性。
實際計算過程如下表:
----------------------------------------------------------------------------------
如下圖所示,KS統計量是F(s|G)和F(s|B)間距離最大的那條紅線的長度。
仔細觀察圖形,存在如下兩個問題:
1. 為什么F(s|B)為凹函數、F(s|G)為凸函數?
2. 為什么F(s|B)-F(s|G)存在極大值(最大值)?
3. 為什么F(s|B)曲線在F(s|G)曲線之上?
在解釋這3個問題之前,讓我們先來做個完美假設:
上述圖形描述的是一個理想的評分卡系統的好壞客戶累計分布情況:即分數越高,好客戶占比越大,分數越低,壞客戶占比越小。
理想假設:假設存在一個完美的評分卡,使得隨機變量score分別在好客戶下的條件概率分布函數f(s|G)嚴格單調遞增、即分數越高,f(s|G)=P(score=s|G)的概率越來越大,在壞客戶下的條件概率分布函數f(s|B)嚴格單調遞減,即分數越低,f(s|B)=P(score=s|B)的概率越來越大。
現在,我們來看在實際應用當中的計算過程,如下表:
----------------------------------------------------------------------------------
三、?ROC曲線與AUROC值;
3.1. ROC曲線
ROC曲線也是評分卡度量指標中常用的指標工具,在介紹KS統計量的時候,其分布函數是由好客戶和壞客戶對應的累計概率密度函數F(s|B)與F(s|G)隨著分數s變化的圖形,而ROC曲線是好客戶的累計概率密度相對于壞客戶的累計概率密度函數的圖形,如下圖所示:
-------------------------------------------End-----------------------------------
0
熱愛生活,熱愛學習。
永遠年輕,永遠熱忱。
知乎:金融建模
微信號:cutewendan
公眾號:風控汪的數據分析之路
總結
以上是生活随笔為你收集整理的分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想ThinkPhone或将在本月底开始
- 下一篇: react登录页面_React 实现路由