建模准备一定要做的这几件事
建模準(zhǔn)備這里我想跟大家分享五個(gè)點(diǎn),就是在建模準(zhǔn)備中需要做的五個(gè)方面。
一、業(yè)務(wù)目的
模型都是建立在業(yè)務(wù)目的上的,我們要根據(jù)不同的業(yè)務(wù)目的建立不同的模型,那么業(yè)務(wù)目的會(huì)從以下三個(gè)方面出發(fā):
1、客戶。客戶可以分為:有錢(qián)還的,沒(méi)錢(qián)還但是心里想還的,沒(méi)錢(qián)但是心里不想還的,以及有錢(qián)但是我就是不還的。后面兩種不還錢(qián)的人,我們定義他們?yōu)槠墼p客戶,就是來(lái)借錢(qián)之前想著不還的,對(duì)于前兩種以及后面兩種客戶,我們的有不同的方式區(qū)別,
2、產(chǎn)品。不同的客戶的客戶特征是不同的,譬如貸款產(chǎn)品中會(huì)分出商人以及上班族的不同貸款,那么這時(shí),我們假設(shè)客戶的一個(gè)變量,工資流水,對(duì)于商人來(lái)說(shuō)可能有淡季旺季,所以流水可能波動(dòng)大,但是上班族,除了年終的時(shí)候會(huì)波動(dòng)一下,其實(shí)時(shí)候毫無(wú)波瀾。
3、行為。客戶行為,是申請(qǐng)進(jìn)件客戶,還是還款中客戶還是逾期需要催收的客戶。
二、好壞客戶定義
請(qǐng)看圖,c-m1的意思就是正常客戶變成逾期一期的占比,15年12月份有10000人來(lái)申請(qǐng),那么在1月份有504個(gè)人逾期了,那么這504個(gè)人在2月份就是逾期一期的,跟著2月份來(lái)了,這504個(gè)人里面有77%還了錢(qián)就變成正常客戶了,但是有23%的人還是不還,所以在2月份里面有大概116個(gè)人是2016年1月逾期了2期的人,接著3月份,這些有些還了一期的錢(qián)變成逾期兩期的人,有些人全還了變成正常的人了,但是還有41.82%的人還是不還,那么3月是是2016年1月逾期了3期的人里面有大概49個(gè)人。到了4月份,之前3月份逾期了3期的那些人有些還錢(qián)了,但是還是有82.70%的人繼續(xù)逾期,大概是40個(gè)人逾期4期了。五月份了,這40個(gè)人有那么4.33%的人選擇了還錢(qián),但是還有38個(gè)人繼續(xù)不還錢(qián),這38個(gè)人在五月份就是逾期了5期了,六月份了,這38個(gè)人有97.62%的還是繼續(xù)不還,大概算一個(gè)人還了,可以看大隨著逾期的期數(shù)越多,會(huì)還錢(qián)的人越來(lái)越少,可以根據(jù)轉(zhuǎn)化率看到,最后的38個(gè)人與剛開(kāi)始的49人,占比是77%,可以確定是的一旦客戶逾期3期以上的時(shí)候就有很大的概率變成壞賬客戶。
定義逾期多少期我們可以定義為逾期客戶之后,還需要確定還多少期之后的逾期三期的客戶算壞客戶,我們這里提一點(diǎn)是,我們本次的評(píng)分卡是圍繞申請(qǐng)?jiān)u分卡展開(kāi)的,那么申請(qǐng)?jiān)u分卡的定位客戶是:想要還但是沒(méi)錢(qián)還的,即會(huì)出現(xiàn)短期或者長(zhǎng)期資金緊缺的情況,那么這里就需要提到“賬齡”,在圖中可以發(fā)現(xiàn)在9個(gè)月之后,壞賬率趨于平緩,即在還了9個(gè)月到12個(gè)月期間的客戶我們可以判定其是因?yàn)橘Y金的不足才壞賬的。即可以在9-12之間選擇一個(gè)賬齡,確定壞客戶的標(biāo)準(zhǔn)。然而在一般是實(shí)戰(zhàn)建模中與新巴塞爾資本協(xié)議中針對(duì)內(nèi)部風(fēng)險(xiǎn)規(guī)范,也是建議12個(gè)月為單位較為合適。
三、準(zhǔn)備建模樣本數(shù)據(jù)
A卡一般可做貸款0-1年的信用分析,B卡則是在申請(qǐng)人有了一定行為后,有了較大數(shù)據(jù)進(jìn)行的分析,一般為3-5年,C卡則對(duì)數(shù)據(jù)要求更大,需加入催收后客戶反應(yīng)等屬性數(shù)據(jù)。
評(píng)分卡數(shù)據(jù)需要累積到一段時(shí)間達(dá)到數(shù)據(jù)量的時(shí)候才能見(jiàn)面,圖中的橫軸是一條時(shí)間軸,左邊的為客戶的觀察期,右邊為客戶的展現(xiàn)期,那么剛才我們已經(jīng)有了好壞定義,這時(shí)候就要用這個(gè)規(guī)則取數(shù),假設(shè)我們剛才去的是12期逾期90+,那么這時(shí)候觀察期就是12期+90天,展現(xiàn)期中逾期30天的客戶就是壞客戶,展現(xiàn)期沒(méi)有逾期的客戶就是好客戶,那么這時(shí)候你會(huì)問(wèn)還了12期的逾期30天的客戶算什么,算不到展現(xiàn)期的客戶,因?yàn)檫@時(shí)候你不能確定他是不是會(huì)在第31天就還上了。
如果你們是數(shù)學(xué)專業(yè)或者有上過(guò)多元統(tǒng)計(jì)分析這類的都知道,建模數(shù)據(jù)都會(huì)分訓(xùn)練集以及測(cè)試集,測(cè)試集的作用是測(cè)試訓(xùn)練集出來(lái)的模型可不可以對(duì)訓(xùn)練集之外的數(shù)據(jù)用,那么在實(shí)際建模中還會(huì)加一個(gè)驗(yàn)證集,測(cè)試集以及訓(xùn)練集的好壞比例是跟建模樣本的比例是一樣的,驗(yàn)證樣本是取建模數(shù)據(jù)往后退大概一兩個(gè)月的數(shù)據(jù)作為驗(yàn)證樣本,這部分?jǐn)?shù)據(jù)不僅測(cè)試模型能不能訓(xùn)練集之外客戶可不可以用,還有驗(yàn)證模型是不是會(huì)隨著時(shí)間的遷移而出現(xiàn)了效果偏差,但是模型效果出現(xiàn)偏差是肯定的,但是是否效果大幅度下降。
四、排除不可建模樣本數(shù)據(jù)
排除不要的樣本,以免影響變量效果,在風(fēng)控系統(tǒng)中,被拒絕規(guī)則婉拒的客戶我們不加入建模樣本中,但是后期需要拒絕演繹還是需要這部分樣本,為什么這部分?jǐn)?shù)據(jù)不要呢,因?yàn)楸旧砦覀儾荒艽_定他是不是真的是壞的,這里要說(shuō)明一點(diǎn)是,拒絕規(guī)則是拒絕掉那些可能性很大是壞客戶的人,但是并不在公司的貸款中逾期,所以不能定義他就是壞的。
不到展現(xiàn)期客戶,即在觀察期的客戶,就是剛開(kāi)借錢(qián),但是還了幾期,還沒(méi)逾期,不能判定是不是壞人也不能進(jìn)入模型樣本,至于還了多少期還沒(méi)逾期的算好客戶的,命中黑名單的客戶也同樣的道理。
五、討論是否進(jìn)行樣本分群
剛才說(shuō)的不同的產(chǎn)品會(huì)有不同的客戶特征,但是即使同樣的產(chǎn)品,同樣的客戶行為,那么樣本還會(huì)有不同的特征,譬如男女的逾期表現(xiàn)在某種程度上來(lái)講,女性逾期了會(huì)比男性低,所以如果在數(shù)據(jù)足夠的前提下,可以考慮通過(guò)不同的方式對(duì)客戶分群,分群的方式可以根據(jù)變量的分類的逾期率的不同,例如剛才講的是男女分群,男女前提是這兩種類型的人逾期率有一個(gè)差別,對(duì)于其他變量也一樣。
總結(jié)
以上是生活随笔為你收集整理的建模准备一定要做的这几件事的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 你应该知道的模型评估的五个方法
- 下一篇: 模型验证的常用“武器”—ROC和AUC