【模型迭代】模型迭代
研習(xí)社話題N:
問(wèn)題:信用模型的因變量如何修復(fù)?或者說(shuō)如何更好的確定Y變量?
解釋:已經(jīng)定義了Y,但是模型效果一般,或者說(shuō)在逐漸變差,所以在想辦法重新定義。
原因:模型上線后,效果一般,效果一般的表現(xiàn)是什么?問(wèn)題出在哪里?除了Y的定義,還有哪些可能存在的原因?
探究:模型效果的評(píng)估指標(biāo)及調(diào)優(yōu)方法?業(yè)務(wù)中的Y的定義方法。
下面,我們開(kāi)始今天的分析:
先看幾個(gè)概念:
??1、score_cutoff及pass_rate%
??2、cutoff以上各分段區(qū)間的sample_amount,pre_bad_rate%和real_bad_rate%以及model_error
舉個(gè)例子:
??可以看到,假如我們我們的cutoff閾值設(shè)置為500分,模型各分段預(yù)測(cè)違約概率隨分值的增加而降低,實(shí)際業(yè)務(wù)中模型表現(xiàn)情況也基本符合這個(gè)規(guī)律。但是,模型的實(shí)際效果,要比預(yù)測(cè)效果差不少,model_error基本在5%以上,說(shuō)明:我們模型的整體預(yù)估能力出了問(wèn)題,而不單單是某個(gè)分段。基于此,我們可以從如下幾個(gè)角度出發(fā),分析造成違約升高的因素,從而找出對(duì)應(yīng)的調(diào)優(yōu)方法。
角度1:
外部因素變化
??1)經(jīng)濟(jì)環(huán)境變差 2)政策導(dǎo)向變化 3)放貸環(huán)境受影響 4)銀行或機(jī)構(gòu)本身產(chǎn)品結(jié)構(gòu)調(diào)整 5)進(jìn)件渠道發(fā)生變化
??6)其他因素
分析方法:
??1)經(jīng)驗(yàn),外部環(huán)境、管理部門(mén)、運(yùn)營(yíng)部門(mén)、貸后部門(mén)、催收部門(mén),反饋
??2)量化,表現(xiàn)為用戶整體評(píng)分并無(wú)下降,各區(qū)間分布也較為合理,Pass_rate%正常,但貸后表現(xiàn)異常。
角度2:
樣本特征X分布發(fā)生變化
??具體表現(xiàn)為,樣本個(gè)別或多個(gè)特征整體分布發(fā)生變化,原因可能為進(jìn)件用戶結(jié)構(gòu)隨外部環(huán)境等因素影響而發(fā)生變化。結(jié)果為進(jìn)件評(píng)分整體評(píng)分升高或降低,或者區(qū)間評(píng)分升高或降低。若整體評(píng)分降低,通常風(fēng)控經(jīng)理會(huì)降低cutoff,為滿足通過(guò)率的要求,這就導(dǎo)致本來(lái)部分低分用戶,也得到了審批。若整體評(píng)分升高,通常風(fēng)控經(jīng)理會(huì)降低cutoff,導(dǎo)致部分好用戶會(huì)被等同降級(jí)處理。
??最終的結(jié)果都表現(xiàn)為,逾期率的提升。
分析方法:
??1)PSI觀察Y值是否穩(wěn)定
??2)PSI觀察各樣本特征X的分布變換是否穩(wěn)定,另外檢測(cè)其正態(tài)性和相關(guān)性是否發(fā)生漂移。
角度3:
label特征Y定義出現(xiàn)問(wèn)題
??通常,銀行業(yè)務(wù)中,定義壞樣本選M3,也就是逾期超過(guò)90天;機(jī)構(gòu)分期業(yè)務(wù),通常選取FPD30或者PDM(最大逾期天數(shù));單期小額現(xiàn)金貸業(yè)務(wù),通常選擇PD10~PD30;極個(gè)別業(yè)務(wù),會(huì)選擇PD3甚至PD1。我們訓(xùn)練模型前,具體label特征Y定義方法的選擇,需要結(jié)合業(yè)務(wù)經(jīng)驗(yàn)和賬齡分析、貸后催回表現(xiàn)等因素的綜合評(píng)定。
??我們可以看到,Y的選擇不同,正負(fù)樣本占比即不同,樣本區(qū)間分布便不同。因此,如果Y的定義不合理,會(huì)影響到評(píng)分卡的效果。如果數(shù)據(jù)在訓(xùn)練集、測(cè)試集、驗(yàn)證集的表現(xiàn)都不錯(cuò),但是實(shí)際投產(chǎn)后出現(xiàn)問(wèn)題,出去經(jīng)濟(jì)政策環(huán)境和業(yè)務(wù)環(huán)境發(fā)生變化的原因外,很有可能是Y選取不合適導(dǎo)致樣本質(zhì)量發(fā)生偏移的結(jié)果。
??綜上,我們就可以理解:一般機(jī)構(gòu)業(yè)務(wù)定義Y,通常選PD10~PD30左右,時(shí)間不短,也不會(huì)太長(zhǎng)。時(shí)間太短,模型中會(huì)將非常多正常樣本的信息誤認(rèn)為壞樣本信息而去學(xué)習(xí);時(shí)間太長(zhǎng),許多壞樣本的信息學(xué)習(xí)就不完整,另外模型調(diào)優(yōu)的周期也會(huì)被動(dòng)拉長(zhǎng)。
??因此,我們也可以理解,為什么銀行一般不用或少用較為復(fù)雜的評(píng)分卡模型,殺雞用牛刀的方式,少用。
??現(xiàn)在回到文章開(kāi)始時(shí)的幾個(gè)問(wèn)題:
??總結(jié)如下:當(dāng)模型效果表現(xiàn)一般時(shí),我們通常需要從多個(gè)角度出發(fā)考慮問(wèn)題,采用經(jīng)驗(yàn)加分析的方法。將影響Pass_rate%和bad_rate%的因素排查定位到①環(huán)境、②X、③Y,進(jìn)而進(jìn)一步排查分析具體原因。
??由此,我們也可以得出教訓(xùn),在模型開(kāi)發(fā)過(guò)程中,需要不斷去通過(guò)PSI、Pass_rate%、bad_rate%、混淆矩陣等方法去分析樣本特征的預(yù)測(cè)性、穩(wěn)定性,以及Y定義的合理性。這樣,會(huì)盡可能的避免模型上線即失效的尷尬局面。
??對(duì)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、金融風(fēng)控等感興趣的小伙伴,需要數(shù)據(jù)集、代碼、行業(yè)報(bào)告等各類學(xué)習(xí)資料,可添加微信:wu805686220(記得要備注喔!),也可關(guān)注微信公眾號(hào):風(fēng)控圏子(別打錯(cuò)字,是圏子,不是圈子,算了直接復(fù)制吧!)
關(guān)注公眾號(hào)后,可聯(lián)系圈子助手加入如下社群:
- 機(jī)器學(xué)習(xí)風(fēng)控討論群(微信群)
- 反欺詐討論群(微信群)
- python學(xué)習(xí)交流群(微信群)
- 研習(xí)社資料(qq群:102755159)(干貨、資料、項(xiàng)目、代碼、報(bào)告、課件)
相互學(xué)習(xí),共同成長(zhǎng)。
總結(jié)
以上是生活随笔為你收集整理的【模型迭代】模型迭代的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【文本挖掘】反欺诈模糊匹配
- 下一篇: 【风控策略】(未完成)策略规则与模型评分