分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标
前言:
當(dāng)一張評分卡構(gòu)建完成時,篩選出一組特征生成了分?jǐn)?shù),我們會想要知道這個分?jǐn)?shù)是否靠譜,即是否可以依賴這個分?jǐn)?shù)將好壞客戶區(qū)分開來,這個時候就需要評判評分卡有效性的指標(biāo)。
測量評分卡好壞區(qū)分能力的指標(biāo)有許多,本文就為大家介紹幾個常用的定量指標(biāo):
1. 散度(分?jǐn)?shù)為連續(xù)函數(shù))與信息比率(IV);
2. KS值
在這篇文章當(dāng)中,花了極大的筆墨從數(shù)學(xué)的角度證明了KS值的存在性和函數(shù)性質(zhì)問題:
為什么F(s|B)為凹函數(shù)、F(s|G)為凸函數(shù)?
為什么F(s|B)-F(s|G)存在極大值(最大值)?
為什么F(s|B)曲線在F(s|G)曲線之上?
3. ROC曲線、AUROC值與GINI系數(shù)。
----------------------------------------------------------------------------------
一、 散度與IV值
1.1 散度
散度為信息比率的連續(xù)版本。而評分卡分?jǐn)?shù)是基于有限樣本計算出的分?jǐn)?shù)分布,并不一定是完全連續(xù)函數(shù),所以就衍生出了離散版本的散度----信息比率IV。
1.3 IV值的應(yīng)用
在實際應(yīng)用當(dāng)中,IV值通常用來篩選變量,IV值越大,該變量的好壞區(qū)分能力越強(qiáng)。在評分卡建模的過程中,利用IV值篩選變量也是非常重要的一個環(huán)節(jié)。
從IV值的公式中,易得變量的分組越多,IV值越大。但是分組分的太多,就會使得每個分組的數(shù)據(jù)量變少,導(dǎo)致細(xì)項分組的分布不穩(wěn)定。所以,我們在使用IV值篩選變量的時候,不能為了提高IV值一味地將分箱的數(shù)目提高,也要兼顧變量的業(yè)務(wù)含義和分布的穩(wěn)定性。
實際計算過程如下表:
----------------------------------------------------------------------------------
如下圖所示,KS統(tǒng)計量是F(s|G)和F(s|B)間距離最大的那條紅線的長度。
仔細(xì)觀察圖形,存在如下兩個問題:
1. 為什么F(s|B)為凹函數(shù)、F(s|G)為凸函數(shù)?
2. 為什么F(s|B)-F(s|G)存在極大值(最大值)?
3. 為什么F(s|B)曲線在F(s|G)曲線之上?
在解釋這3個問題之前,讓我們先來做個完美假設(shè):
上述圖形描述的是一個理想的評分卡系統(tǒng)的好壞客戶累計分布情況:即分?jǐn)?shù)越高,好客戶占比越大,分?jǐn)?shù)越低,壞客戶占比越小。
理想假設(shè):假設(shè)存在一個完美的評分卡,使得隨機(jī)變量score分別在好客戶下的條件概率分布函數(shù)f(s|G)嚴(yán)格單調(diào)遞增、即分?jǐn)?shù)越高,f(s|G)=P(score=s|G)的概率越來越大,在壞客戶下的條件概率分布函數(shù)f(s|B)嚴(yán)格單調(diào)遞減,即分?jǐn)?shù)越低,f(s|B)=P(score=s|B)的概率越來越大。
現(xiàn)在,我們來看在實際應(yīng)用當(dāng)中的計算過程,如下表:
----------------------------------------------------------------------------------
三、?ROC曲線與AUROC值;
3.1. ROC曲線
ROC曲線也是評分卡度量指標(biāo)中常用的指標(biāo)工具,在介紹KS統(tǒng)計量的時候,其分布函數(shù)是由好客戶和壞客戶對應(yīng)的累計概率密度函數(shù)F(s|B)與F(s|G)隨著分?jǐn)?shù)s變化的圖形,而ROC曲線是好客戶的累計概率密度相對于壞客戶的累計概率密度函數(shù)的圖形,如下圖所示:
-------------------------------------------End-----------------------------------
0
熱愛生活,熱愛學(xué)習(xí)。
永遠(yuǎn)年輕,永遠(yuǎn)熱忱。
知乎:金融建模
微信號:cutewendan
公眾號:風(fēng)控汪的數(shù)據(jù)分析之路
總結(jié)
以上是生活随笔為你收集整理的分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想ThinkPhone或将在本月底开始
- 下一篇: react登录页面_React 实现路由