分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标
前言:
當(dāng)一張?jiān)u分卡構(gòu)建完成時(shí),篩選出一組特征生成了分?jǐn)?shù),我們會(huì)想要知道這個(gè)分?jǐn)?shù)是否靠譜,即是否可以依賴這個(gè)分?jǐn)?shù)將好壞客戶區(qū)分開(kāi)來(lái),這個(gè)時(shí)候就需要評(píng)判評(píng)分卡有效性的指標(biāo)。
測(cè)量評(píng)分卡好壞區(qū)分能力的指標(biāo)有許多,本文就為大家介紹幾個(gè)常用的定量指標(biāo):
1. 散度(分?jǐn)?shù)為連續(xù)函數(shù))與信息比率(IV);
2. KS值
在這篇文章當(dāng)中,花了極大的筆墨從數(shù)學(xué)的角度證明了KS值的存在性和函數(shù)性質(zhì)問(wèn)題:
為什么F(s|B)為凹函數(shù)、F(s|G)為凸函數(shù)?
為什么F(s|B)-F(s|G)存在極大值(最大值)?
為什么F(s|B)曲線在F(s|G)曲線之上?
3. ROC曲線、AUROC值與GINI系數(shù)。
----------------------------------------------------------------------------------
一、 散度與IV值
1.1 散度
散度為信息比率的連續(xù)版本。而評(píng)分卡分?jǐn)?shù)是基于有限樣本計(jì)算出的分?jǐn)?shù)分布,并不一定是完全連續(xù)函數(shù),所以就衍生出了離散版本的散度----信息比率IV。
1.3 IV值的應(yīng)用
在實(shí)際應(yīng)用當(dāng)中,IV值通常用來(lái)篩選變量,IV值越大,該變量的好壞區(qū)分能力越強(qiáng)。在評(píng)分卡建模的過(guò)程中,利用IV值篩選變量也是非常重要的一個(gè)環(huán)節(jié)。
從IV值的公式中,易得變量的分組越多,IV值越大。但是分組分的太多,就會(huì)使得每個(gè)分組的數(shù)據(jù)量變少,導(dǎo)致細(xì)項(xiàng)分組的分布不穩(wěn)定。所以,我們?cè)谑褂肐V值篩選變量的時(shí)候,不能為了提高IV值一味地將分箱的數(shù)目提高,也要兼顧變量的業(yè)務(wù)含義和分布的穩(wěn)定性。
實(shí)際計(jì)算過(guò)程如下表:
----------------------------------------------------------------------------------
如下圖所示,KS統(tǒng)計(jì)量是F(s|G)和F(s|B)間距離最大的那條紅線的長(zhǎng)度。
仔細(xì)觀察圖形,存在如下兩個(gè)問(wèn)題:
1. 為什么F(s|B)為凹函數(shù)、F(s|G)為凸函數(shù)?
2. 為什么F(s|B)-F(s|G)存在極大值(最大值)?
3. 為什么F(s|B)曲線在F(s|G)曲線之上?
在解釋這3個(gè)問(wèn)題之前,讓我們先來(lái)做個(gè)完美假設(shè):
上述圖形描述的是一個(gè)理想的評(píng)分卡系統(tǒng)的好壞客戶累計(jì)分布情況:即分?jǐn)?shù)越高,好客戶占比越大,分?jǐn)?shù)越低,壞客戶占比越小。
理想假設(shè):假設(shè)存在一個(gè)完美的評(píng)分卡,使得隨機(jī)變量score分別在好客戶下的條件概率分布函數(shù)f(s|G)嚴(yán)格單調(diào)遞增、即分?jǐn)?shù)越高,f(s|G)=P(score=s|G)的概率越來(lái)越大,在壞客戶下的條件概率分布函數(shù)f(s|B)嚴(yán)格單調(diào)遞減,即分?jǐn)?shù)越低,f(s|B)=P(score=s|B)的概率越來(lái)越大。
現(xiàn)在,我們來(lái)看在實(shí)際應(yīng)用當(dāng)中的計(jì)算過(guò)程,如下表:
----------------------------------------------------------------------------------
三、?ROC曲線與AUROC值;
3.1. ROC曲線
ROC曲線也是評(píng)分卡度量指標(biāo)中常用的指標(biāo)工具,在介紹KS統(tǒng)計(jì)量的時(shí)候,其分布函數(shù)是由好客戶和壞客戶對(duì)應(yīng)的累計(jì)概率密度函數(shù)F(s|B)與F(s|G)隨著分?jǐn)?shù)s變化的圖形,而ROC曲線是好客戶的累計(jì)概率密度相對(duì)于壞客戶的累計(jì)概率密度函數(shù)的圖形,如下圖所示:
-------------------------------------------End-----------------------------------
0
熱愛(ài)生活,熱愛(ài)學(xué)習(xí)。
永遠(yuǎn)年輕,永遠(yuǎn)熱忱。
知乎:金融建模
微信號(hào):cutewendan
公眾號(hào):風(fēng)控汪的數(shù)據(jù)分析之路
總結(jié)
以上是生活随笔為你收集整理的分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 联想ThinkPhone或将在本月底开始
- 下一篇: react登录页面_React 实现路由