【待继续研究】建模-听说你的坏样本不太够
今天的話題我們分為兩部分,一部分是在建模前提如何處理壞樣本過(guò)少的問(wèn)題,第二部分是說(shuō)模型建立之后,驗(yàn)證你這模型的效果的方法。
?
首先樣本過(guò)少分成兩種過(guò)少的情況。一種是的的確確就是沒(méi)啥壞樣本,就是幾十個(gè),一百來(lái)個(gè)。另外一種就是相對(duì)于好樣本,比較少,例如你有一百萬(wàn)的好樣本,只有一萬(wàn)的壞樣本,第二種就是屬于樣本不均衡的話題,這個(gè)網(wǎng)上的文獻(xiàn)也都有好多,我這里就不展開(kāi)了。
?
樣本過(guò)少之我只有幾十個(gè)壞樣本。這種情況多數(shù)發(fā)生在產(chǎn)品剛上線的時(shí)候,沒(méi)啥數(shù)據(jù),但是又覺(jué)得規(guī)則撐不住,所以還是想做模型來(lái)和規(guī)則一起來(lái)維穩(wěn),這時(shí)候你可以把這種情況當(dāng)做冷啟動(dòng)來(lái)處理,我之前講冷啟動(dòng)的時(shí)候,提到一點(diǎn)點(diǎn),這邊我們來(lái)細(xì)化一下可以有哪些方法。
?
放棄這僅有的樣本,重新尋找近似的壞樣本。為什么我說(shuō)要放棄這僅有的樣本,如果是產(chǎn)品上線的初期,首先這時(shí)候你的風(fēng)控不敢放松,容忍度較低,那么通過(guò)率相對(duì)較低,這是壞樣本少的一個(gè)方面,另外一個(gè)方面就是,本身產(chǎn)品剛上線的話,可能壞樣本就是近一個(gè)月進(jìn)來(lái)產(chǎn)生的壞樣本,指不定就是逾期了3天,你就覺(jué)得他是壞客戶,這有些說(shuō)不過(guò)去,所以這里有兩個(gè)點(diǎn)希望你放棄這批壞樣本:1、夠不夠壞,如果夠壞,那是不是剩十幾個(gè)了。2、壞樣本的覆蓋面不全,這個(gè)月進(jìn)來(lái)的壞樣本的特征不能覆蓋到基本的壞樣本的特征,盡管可以擬合出來(lái)的模型在當(dāng)下有用,但是后續(xù)還是有很大的可能會(huì)不穩(wěn)定。
?
在第一點(diǎn)中我說(shuō)希望你放棄壞樣本的理由,如果你的壞樣本不滿足第一天的條件,你可以不放棄的,我不想勸你。那么補(bǔ)充壞樣本可以有以下幾種方式:
?
1.其他數(shù)據(jù)的標(biāo)準(zhǔn)定義壞樣本。你們公司接了什么第三方數(shù)據(jù)我不知道,但是一般一般呢,不是粗暴放款的,至少都接了簡(jiǎn)版征信,簡(jiǎn)版征信中有好幾個(gè)逾期標(biāo)準(zhǔn),舉個(gè)例子哈,五年內(nèi)超過(guò)90天逾期的次數(shù),點(diǎn)到為止,你自己在這份數(shù)據(jù)中衍生其他逾期標(biāo)準(zhǔn)。這思路就跟你找犯人的時(shí)候,把之前有前科的人抓出來(lái)掃一遍一樣。
?
2.使用其他數(shù)據(jù)閾值切分壞樣本。我又要拿我喜歡拿出來(lái)舉例子的數(shù)據(jù)----多頭數(shù)據(jù),這個(gè)方法跟警察抓嫌疑犯一樣,雖然我沒(méi)看到你明顯犯罪了,但是我覺(jué)得你有動(dòng)機(jī)。可以使用多頭的數(shù)據(jù)中,你們不能容忍的超過(guò)幾次的閾值,例如近一個(gè)月超過(guò)20次,那么等于大于20次的客戶就是壞客戶。
?
3.物以類(lèi)聚法或者專(zhuān)家評(píng)分卡。根據(jù)你的經(jīng)(感)驗(yàn)(覺(jué))找出幾個(gè)跟客戶逾不逾期的強(qiáng)相關(guān)變量,最好是數(shù)值型的變量,這時(shí)候可以把那之前提到的那幾十個(gè)壞樣本,使用聚類(lèi)(建議knn)找出,哪一類(lèi)的壞樣本的占比最高的,把這個(gè)類(lèi)的樣本就當(dāng)做壞樣本。后者使用專(zhuān)家評(píng)分卡,找出專(zhuān)家評(píng)分卡下分?jǐn)?shù)比較低的那5%-10%。
?
4.使用人工標(biāo)準(zhǔn)。那么我們?cè)趯徟h(huán)節(jié)中(假設(shè)你們還是有人工介入的),這時(shí)候可以概括兩種拒絕的人:1、系統(tǒng)拒絕,2、人工拒絕。那么系統(tǒng)拒絕的客戶,你可以定義為,他一出來(lái),你一眼就知道他是壞人,人工拒絕的客戶,你可以理解為,這貨一路偽裝了好多東西,但是最后被你們公司高端的審批高超的話術(shù)征服了,道出了他想犯罪的想法,然后你叫他滾,然后他犯罪不遂,但是沒(méi)有你們高端的審批,這個(gè)人就可能變成你們公司的壞客戶。那么這里說(shuō)一個(gè)問(wèn)題,就是公司做模型是為了什么,為的節(jié)省人力,最理想的狀態(tài)就是風(fēng)控的各個(gè)環(huán)節(jié)可以讓90%的客戶完成審核審批,10%人工核驗(yàn),你們要是有種100%風(fēng)控系統(tǒng)全自動(dòng)審批,我也不攔你。所以你這時(shí)候,你就發(fā)現(xiàn),你頂著風(fēng)控建模師的職稱(chēng),你的工作就變成把這本應(yīng)人工拒絕的客戶變成你的模型能拒絕的,所以人工拒絕的客戶就變成你的壞客戶了,這些思路順著下去,你可以分析出更多適合你的模型的壞客戶。
?
5.無(wú)監(jiān)督建模。這個(gè)方法是區(qū)別于以上四個(gè)方法,以上都是在說(shuō)怎么找出壞樣本,因?yàn)槲覀円霰O(jiān)督模型,那么要是你有種一點(diǎn),你跟領(lǐng)導(dǎo)說(shuō),我覺(jué)得我做無(wú)監(jiān)督的效果也可以做的很牛逼,這我也不攔你的,畢竟建模的思維本來(lái)就是擴(kuò)散,這個(gè)就有個(gè)問(wèn)題就是說(shuō),如果是無(wú)監(jiān)督的話,那么可能部署到系統(tǒng)上是個(gè)問(wèn)題。
總結(jié)
以上是生活随笔為你收集整理的【待继续研究】建模-听说你的坏样本不太够的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【采用】信用风险评分卡系列之数据处理
- 下一篇: python评分卡建模-实现WOE编码及