【未来可能用到】关于模型的100个问答-part2
關(guān)于模型的100個(gè)問答-part2
一
距離過年還有8天,沒錯(cuò)的,我跟你一樣還沒有休假。深圳這段時(shí)間是冷到刺骨了,就是冷到我今天才來更新,不要煩我每次都要說這段話,畢竟是生活中無處表達(dá),只能在這抒發(fā)了。
上周的part1,感謝留言區(qū)的大神的回答,也補(bǔ)充了我知識的缺陷,謝謝!
今天能寫多少的問題就寫多少個(gè)問題哈,有些我是想到就寫上去了,也希望在這篇文章也能有大神出沒,這個(gè)系列就是把一些零碎的知識匯總一下。
1
1、我生成的評分,用哪個(gè)woe啊。
woe,一般情況下有三個(gè)數(shù)據(jù)集的woe,這個(gè)套路跟參數(shù)估計(jì)一個(gè)道理。
1、用訓(xùn)練集的woe,因?yàn)橛?xùn)練集的數(shù)據(jù)范圍廣,覆蓋面廣
2、用訓(xùn)練集+測試集的數(shù)據(jù)疊加在一起,算一個(gè)woe,數(shù)據(jù)比之前的更廣。
3、用驗(yàn)證數(shù)據(jù)集的woe,接近現(xiàn)在的時(shí)間,可以代表當(dāng)下的客戶形態(tài)。但是驗(yàn)證的數(shù)據(jù)一般就是1 2個(gè)月的數(shù)據(jù),所以覆蓋面就不知道那么廣。
我比較常用的是第二種方式。你這時(shí)候可能問,那參數(shù)估計(jì)要不要配套,我建議是配套,但是我只是建議~~
2
2、我做的模型,ks很高啊,為什么我A層的客戶比B層客戶逾期率還高?
這種情況經(jīng)常發(fā)生,訓(xùn)練集中分層明明是完美分層,A-E逾期率依次遞減,批核率依次遞減,這時(shí)候你的驗(yàn)證集要是小的波動,要是a層比b層還高出5%的話,這就明顯是世界對你狠狠的恨意了,處理建議:
1、把你這a層,要是全面一些就ab兩層的壞客戶都全拿出來,按照每個(gè)變量的得分,看下是那些變量讓你的壞客戶的跑到A層的,把這個(gè)變量替換成別的變量,重新擬合。
2、如果你的驗(yàn)證的ab層區(qū)分度不夠,但是還是優(yōu)于c層較多的,可以分層四層,把a(bǔ)b兩層放在一起。對外就說,這個(gè)模型分成四層比較合適,誰規(guī)定一定要分5層的。
3、檢查是不是你把白戶放進(jìn)去建模了,其實(shí)很多公司對白戶這類客戶都有點(diǎn)束手束腳,假設(shè)你把白戶(征信空白)放進(jìn)去,且這種查詢次數(shù)為0且負(fù)債為0(征信報(bào)告)的得分較高的話,可能會出現(xiàn)一些逾期白戶進(jìn)入ab層。
3
3、為什么你一直說的都是邏輯回歸?
在建模工作中,我會根據(jù)這個(gè)模型需不需要業(yè)務(wù)的解釋,例如a卡,需要跟產(chǎn)品,審批匯報(bào)這種模型,業(yè)務(wù)重于模型效果嘛,你用了人家業(yè)務(wù)不認(rèn)同的變量,還是會叫你改的嘛,所以會使用邏輯回歸,還有另一方面,像a卡,本身就是衡量客戶的一個(gè)償債能力,大部分的變量呈現(xiàn)都是線性可分的,所以邏輯回歸也相對有優(yōu)勢。
那么像反欺詐這種模型,不要跟業(yè)務(wù)反饋里面用到什么變量,因?yàn)榉雌墼p中的邏輯大部分就是交叉出邏輯上的錯(cuò)誤,或者區(qū)別與普通客戶的特征,你不要跟我說什么中介包裝就跟真的一樣,要是高端的中介包裝,你們審核的人工都看不來,還想指望這用了幾個(gè)變量的模型,不扯這個(gè)。那么這時(shí)候你的變量往往都是交叉驗(yàn)證性或者多個(gè)組合的,一句話,反欺詐沒啥邏輯,都來欺詐,還把征信查詢次數(shù)弄成最近三個(gè)月30次來申請不成,所以大部分的反欺詐模型的變量我自己都解釋不了,那么這時(shí)候你用機(jī)器學(xué)習(xí)的方法就可以讓模型更加難解釋,有效果且穩(wěn)定可用就成你這個(gè)模型的重點(diǎn)了。
4
4、客戶信用分?jǐn)?shù)分層的時(shí)候,怎么知道這層大概分多少?
針對有人工參與的模型,分?jǐn)?shù)分層,以下我的建議建議建議(我只是建議,我的個(gè)人工作經(jīng)驗(yàn),每家公司標(biāo)準(zhǔn)不一樣)如下:
A層:逾期率大概是總體逾期率的30%以下這樣子,假設(shè)你的總體逾期率是10%,那么你的A層的逾期率大概就是1%-3%這樣子,這層的客戶人數(shù)占比大概是總體的4%-8%左右。
B層:逾期率大概是總體的一半左右,客戶人數(shù)占比大概是總體客戶數(shù)的10-15%。
C層:逾期率跟總體差不多,客戶人數(shù)占比大概是總體客戶數(shù)的30%-50%,一般我是AB兩層以及DE兩層進(jìn)不了就到這里來了。
D層:逾期率大概是總體的1.2-1.4倍,客戶人數(shù)占比大概是總體客戶數(shù)的10-15%。
E層:逾期率大概是總體的1.5倍以上,具體看你們公司的容忍度,客戶人數(shù)占比大概是總體客戶數(shù)的4%-8%。
以上是我的建議!!!,建議!!!,知道我為什么一直強(qiáng)調(diào)是建議嗎,知道吧,總有喜歡挑事的。
5
5、是不是進(jìn)入邏輯回歸的模型的woe都需要單調(diào)。
希望單調(diào)的原因是因?yàn)?#xff0c;邏輯回歸對于線性可分的數(shù)據(jù),效果會很明顯,但是并不是你的變量進(jìn)入模型都要單調(diào),數(shù)據(jù)分析,首先最重要的是尊重?cái)?shù)據(jù)的原始性,變量分組并不是為了等下的woe單調(diào),而是利用分組把該變量的特征可以最大化。
舉個(gè)例子,有個(gè)變量的5個(gè)組是0.07, 0.14,0.09,0.25,0.36,我是不建議你把為了有個(gè)單調(diào)的趨勢,把0.14和0.09這兩個(gè)組合并在一起的,假設(shè)你這個(gè)變量是你可以很大的自信認(rèn)為,他就是越大客戶質(zhì)量越不好,那你合并我也不會勸你,但是再你拿不定這個(gè)變量是不是這種情況的時(shí)候,不要合并,檢查一下是不是客戶的通過率造成這種問題。
所以,最好的每個(gè)變量的woe單調(diào)最好,但是如果不單調(diào),業(yè)務(wù)解釋上過得去的呈現(xiàn)u字型的也是可以的。
6
6、 為什么我的隨機(jī)森林過擬合?
隨機(jī)森林回過擬合是常有的事,只是說能不能讓他不要太過了,建議如下:
1、不要種那么多棵樹。
2、取數(shù)的時(shí)候,范圍盡量廣一些,我是覺得取建模數(shù)據(jù)時(shí)候,不要就取近一個(gè)月的數(shù)據(jù),特別像我們這種大額貸款的,每年中旬的會比其他時(shí)候單量要多一些,數(shù)據(jù)的時(shí)間跨度建議是在半年到一年,兩年就太多了。
3、可以分組之后再進(jìn)入模型
4、還有其他我想不到的,期待大神來留言區(qū)解答。
總結(jié)
以上是生活随笔為你收集整理的【未来可能用到】关于模型的100个问答-part2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 客户流失预警模型-GBDT模型
- 下一篇: 【未来可能用到】关于模型的100个问答-