模型稳定度指标PSI与IV
由于模型是以特定時(shí)期的樣本所開(kāi)發(fā)的,此模型是否適用于開(kāi)發(fā)樣本之外的族群,必須經(jīng)過(guò)穩(wěn)定性測(cè)試才能得知。穩(wěn)定度指標(biāo)(population stability index ,PSI)可衡量測(cè)試樣本及模型開(kāi)發(fā)樣本評(píng)分的的分布差異,為最常見(jiàn)的模型穩(wěn)定度評(píng)估指針。其實(shí)PSI表示的就是按分?jǐn)?shù)分檔后,針對(duì)不同樣本,或者不同時(shí)間的樣本,population分布是否有變化,就是看各個(gè)分?jǐn)?shù)區(qū)間內(nèi)人數(shù)占總?cè)藬?shù)的占比是否有顯著變化。公式如下:
?
?
這里的AC與EX為不同時(shí)間段的模型輸出分?jǐn)?shù),如果PSI過(guò)大,說(shuō)明模型輸出的分?jǐn)?shù)分布變化很大了,需要更新模型。?
?
PSI實(shí)際應(yīng)用范例:
1)樣本外測(cè)試
針對(duì)不同的樣本測(cè)試一下模型穩(wěn)定度,比如訓(xùn)練集與測(cè)試集,也能看出模型的訓(xùn)練情況,我理解是看出模型的方差情況。
2)時(shí)間外測(cè)試
測(cè)試基準(zhǔn)日與建模基準(zhǔn)日相隔越遠(yuǎn),測(cè)試樣本的風(fēng)險(xiǎn)特征和建模樣本的差異可能就越大,因此PSI值通常較高。至此也可以看出模型建的時(shí)間太長(zhǎng)了,是不是需要重新用新樣本建模了。
?
變量的PSI計(jì)算:
PSI:檢驗(yàn)變量的穩(wěn)定性,當(dāng)一個(gè)變量的psi值大于0.0001時(shí),變量不穩(wěn)定。一個(gè)變量,將它的取值按照分位數(shù)來(lái)分組一下,每一組中測(cè)試模型的客戶數(shù)占比減去訓(xùn)練模型中的客戶數(shù)占比再乘以這兩者相除的對(duì)數(shù),就是這一組的穩(wěn)定性系數(shù)psi,然后變量的psi系數(shù)就是把這個(gè)變量的所有組的psi相加總起來(lái)。
?https://blog.csdn.net/sinat_26917383/article/details/51721107
IV與WOE:
IV表示一個(gè)變量的預(yù)測(cè)能力:
<=0.02,沒(méi)有預(yù)測(cè)能力,不可用
0.02~0.1 弱預(yù)測(cè)性
0.1~0.2 有一定預(yù)測(cè)能力
0.2+高預(yù)測(cè)性
?IV還可以用來(lái)挑選變量,IV就越大,它就越應(yīng)該進(jìn)入到入模變量列表中。
?
WOE計(jì)算公式:
?要對(duì)一個(gè)變量進(jìn)行WOE編碼,需要首先把這個(gè)變量進(jìn)行分組處理(也叫離散化、分箱等等,說(shuō)的都是一個(gè)意思)。分組后,對(duì)于第i組,WOE的計(jì)算公式如下:
?IV計(jì)算公式:
?
IV和woe參考:https://blog.csdn.net/kevin7658/article/details/50780391
轉(zhuǎn)載于:https://www.cnblogs.com/gczr/p/9073096.html
總結(jié)
以上是生活随笔為你收集整理的模型稳定度指标PSI与IV的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 计算机网络基础第5版教案,计算机网络基础
- 下一篇: 点屏注意事项