日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

风控业务-模型稳定性评价指标PSI

發(fā)布時(shí)間:2025/3/21 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 风控业务-模型稳定性评价指标PSI 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

? ? ? ?在風(fēng)控領(lǐng)域的業(yè)務(wù)中,穩(wěn)定性壓倒一切,一套風(fēng)控模型正式上線運(yùn)行后往往需要很久(通常一年以上)才會(huì)被替換下線。如果模型不穩(wěn)定,意味著模型不可控,對(duì)于業(yè)務(wù)本身而言就是一種不確定性風(fēng)險(xiǎn),直接影響決策的合理性,這是不可接受的。在機(jī)器學(xué)習(xí)構(gòu)建風(fēng)控模型時(shí),我們基于假設(shè)“歷史樣本分布等于未來(lái)樣本分布”。因此,我們通常認(rèn)為:

? ? ? ?模型或變量穩(wěn)定 <=> 未來(lái)樣本分布與歷史樣本分布之間的偏差小。

? ? ? ?然而,實(shí)際中由于受到客群變化(互金市場(chǎng)用戶群體變化快)、數(shù)據(jù)源采集變化(比如爬蟲(chóng)接口被風(fēng)控了)等等因素影響,實(shí)際樣本分布將會(huì)發(fā)生偏移,就會(huì)導(dǎo)致模型不穩(wěn)定。穩(wěn)定度指標(biāo)PSI(Population Stability Index)反映了驗(yàn)證樣本在各分?jǐn)?shù)段的分布與建模樣本分布的穩(wěn)定性。可衡量測(cè)試樣本及模型開(kāi)發(fā)樣本評(píng)分的的分布差異,為最常見(jiàn)的模型穩(wěn)定度評(píng)估指針。其實(shí)PSI表示的就是按分?jǐn)?shù)分檔后,針對(duì)不同樣本,或者不同時(shí)間的樣本,population分布是否有變化,就是看各個(gè)分?jǐn)?shù)區(qū)間內(nèi)人數(shù)占總?cè)藬?shù)的占比是否有顯著變化。

詳細(xì)示例公式如下,這里的AC與EX為不同時(shí)間段的模型輸出分?jǐn)?shù):?

指標(biāo)解釋說(shuō)明如下:

最終計(jì)算的PSI指標(biāo)中:
若PSI<0.1 樣本分布有微小變化,模型基本可以不做調(diào)整;
若PSI 在0.1~0.2之間,樣本分布有變化,根據(jù)實(shí)際情況調(diào)整評(píng)分切點(diǎn)或調(diào)整模型;
若PSI>0.2,樣本分布有顯著變化,必須調(diào)整模型。

?

PSI的計(jì)算過(guò)程如下:

  • step1:將變量預(yù)期分布(excepted)進(jìn)行分箱(binning)離散化,統(tǒng)計(jì)各個(gè)分箱里的樣本占比;
    注意:
    a) 分箱可以是等頻、等距或其他方式,分箱方式不同,將導(dǎo)致計(jì)算結(jié)果略微有差異;
    b) 對(duì)于連續(xù)型變量(特征變量、模型分?jǐn)?shù)等),分箱數(shù)需要設(shè)置合理,一般設(shè)為10或20;對(duì)于離散型變量,如果分箱太多可以提前考慮合并小分箱;分箱數(shù)太多,可能會(huì)導(dǎo)致每個(gè)分箱內(nèi)的樣本量太少而失去統(tǒng)計(jì)意義;分箱數(shù)太少,又會(huì)導(dǎo)致計(jì)算結(jié)果精度降低;
  • step2: 按相同分箱區(qū)間,對(duì)實(shí)際分布(actual)統(tǒng)計(jì)各分箱內(nèi)的樣本占比
  • step3:計(jì) 算各分箱內(nèi)的A - ELn(A / E),計(jì)算index = (實(shí)際占比 - 預(yù)期占比)* ln(實(shí)際占比 / 預(yù)期占比) 。
  • step4: 將各分箱的index進(jìn)行求和,即得到最終的PSI;

使用表格計(jì)算PSI示例為:

? ? ? ?在業(yè)務(wù)生產(chǎn)中,一般以訓(xùn)練集的樣本分布作為預(yù)期分布,進(jìn)而跨時(shí)間窗按月/周來(lái)計(jì)算PSI,在模型上線部署后,也將通過(guò)PSI曲線報(bào)表來(lái)觀察模型的穩(wěn)定性。測(cè)試基準(zhǔn)日與建?;鶞?zhǔn)日相隔越遠(yuǎn),測(cè)試樣本的風(fēng)險(xiǎn)特征和建模樣本的差異可能就越大,因此PSI值通常較高。至此也可以看出模型建的時(shí)間太長(zhǎng)了,是不是需要重新用新樣本建模了。

?

風(fēng)控模型不穩(wěn)定時(shí)的排查方向,當(dāng)通過(guò)PSI指標(biāo)發(fā)現(xiàn)模型不穩(wěn)定時(shí),我們?cè)撊绾稳ヅ挪樵?#xff1f;引起模型不穩(wěn)定的因素是多種多樣的,主要包括:

  • 申貸客群變化:獲客渠道一般決定了客群質(zhì)量,我們只是從客群的有限特征維度來(lái)大致判斷是否變化,但這只是有偏判斷,因?yàn)闊o(wú)法完全獲知用戶畫(huà)像。當(dāng)然,在獲客階段也會(huì)做前置風(fēng)控,預(yù)先篩選流量,以及保證客群的穩(wěn)定。
  • 數(shù)據(jù)源不穩(wěn)定:先從CSI指標(biāo)觀察入模特征的分?jǐn)?shù)漂移,對(duì)于影響較大和偏移較大的變量予以重點(diǎn)關(guān)注。再?gòu)臄?shù)據(jù)源上確認(rèn)采集是否可靠,比如數(shù)據(jù)服務(wù)商是否正常提供、接口是否正常工作、網(wǎng)關(guān)數(shù)據(jù)傳輸過(guò)程是否正常等。
  • 特征邏輯有誤:在模型上線時(shí),特征邏輯可能沒(méi)有確認(rèn)清楚,導(dǎo)致上線后出現(xiàn)意想不到的問(wèn)題。因此,需要將入模特征的邏輯再次予以Review。
  • 其他相關(guān)原因:模型監(jiān)控報(bào)表是否正確計(jì)算?線上依賴于離線T+1產(chǎn)出的數(shù)據(jù)是否正常調(diào)度?特征缺失值處理邏輯?

?

?

?

參考鏈接:https://www.cnblogs.com/Allen-rg/p/11512095.html
參考鏈接:https://zhuanlan.zhihu.com/p/79682292

?

總結(jié)

以上是生活随笔為你收集整理的风控业务-模型稳定性评价指标PSI的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。