當(dāng)前位置：首頁 >

【未来可能用到】关于模型的100个问答-part2

發(fā)布時(shí)間：2025/3/21 39 豆豆

生活随笔收集整理的這篇文章主要介紹了【未来可能用到】关于模型的100个问答-part2 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

關(guān)于模型的100個(gè)問答-part2

一

距離過年還有8天，沒錯(cuò)的，我跟你一樣還沒有休假。深圳這段時(shí)間是冷到刺骨了，就是冷到我今天才來更新，不要煩我每次都要說這段話，畢竟是生活中無處表達(dá)，只能在這抒發(fā)了。

上周的part1,感謝留言區(qū)的大神的回答，也補(bǔ)充了我知識的缺陷，謝謝！

今天能寫多少的問題就寫多少個(gè)問題哈，有些我是想到就寫上去了，也希望在這篇文章也能有大神出沒，這個(gè)系列就是把一些零碎的知識匯總一下。

1、我生成的評分，用哪個(gè)woe啊。

woe,一般情況下有三個(gè)數(shù)據(jù)集的woe,這個(gè)套路跟參數(shù)估計(jì)一個(gè)道理。

1、用訓(xùn)練集的woe，因?yàn)橛?xùn)練集的數(shù)據(jù)范圍廣，覆蓋面廣

2、用訓(xùn)練集+測試集的數(shù)據(jù)疊加在一起，算一個(gè)woe，數(shù)據(jù)比之前的更廣。

3、用驗(yàn)證數(shù)據(jù)集的woe,接近現(xiàn)在的時(shí)間，可以代表當(dāng)下的客戶形態(tài)。但是驗(yàn)證的數(shù)據(jù)一般就是1 2個(gè)月的數(shù)據(jù)，所以覆蓋面就不知道那么廣。

我比較常用的是第二種方式。你這時(shí)候可能問，那參數(shù)估計(jì)要不要配套，我建議是配套，但是我只是建議~~

2、我做的模型，ks很高啊，為什么我A層的客戶比B層客戶逾期率還高？

這種情況經(jīng)常發(fā)生，訓(xùn)練集中分層明明是完美分層，A-E逾期率依次遞減，批核率依次遞減，這時(shí)候你的驗(yàn)證集要是小的波動，要是a層比b層還高出5%的話，這就明顯是世界對你狠狠的恨意了，處理建議：

1、把你這a層，要是全面一些就ab兩層的壞客戶都全拿出來，按照每個(gè)變量的得分，看下是那些變量讓你的壞客戶的跑到A層的，把這個(gè)變量替換成別的變量，重新擬合。

2、如果你的驗(yàn)證的ab層區(qū)分度不夠，但是還是優(yōu)于c層較多的，可以分層四層，把a(bǔ)b兩層放在一起。對外就說，這個(gè)模型分成四層比較合適，誰規(guī)定一定要分5層的。

3、檢查是不是你把白戶放進(jìn)去建模了，其實(shí)很多公司對白戶這類客戶都有點(diǎn)束手束腳，假設(shè)你把白戶（征信空白）放進(jìn)去，且這種查詢次數(shù)為0且負(fù)債為0（征信報(bào)告）的得分較高的話，可能會出現(xiàn)一些逾期白戶進(jìn)入ab層。

3、為什么你一直說的都是邏輯回歸？

在建模工作中，我會根據(jù)這個(gè)模型需不需要業(yè)務(wù)的解釋，例如a卡，需要跟產(chǎn)品，審批匯報(bào)這種模型，業(yè)務(wù)重于模型效果嘛，你用了人家業(yè)務(wù)不認(rèn)同的變量，還是會叫你改的嘛，所以會使用邏輯回歸，還有另一方面，像a卡，本身就是衡量客戶的一個(gè)償債能力，大部分的變量呈現(xiàn)都是線性可分的，所以邏輯回歸也相對有優(yōu)勢。

那么像反欺詐這種模型，不要跟業(yè)務(wù)反饋里面用到什么變量，因?yàn)榉雌墼p中的邏輯大部分就是交叉出邏輯上的錯(cuò)誤，或者區(qū)別與普通客戶的特征，你不要跟我說什么中介包裝就跟真的一樣，要是高端的中介包裝，你們審核的人工都看不來，還想指望這用了幾個(gè)變量的模型，不扯這個(gè)。那么這時(shí)候你的變量往往都是交叉驗(yàn)證性或者多個(gè)組合的，一句話，反欺詐沒啥邏輯，都來欺詐，還把征信查詢次數(shù)弄成最近三個(gè)月30次來申請不成，所以大部分的反欺詐模型的變量我自己都解釋不了，那么這時(shí)候你用機(jī)器學(xué)習(xí)的方法就可以讓模型更加難解釋，有效果且穩(wěn)定可用就成你這個(gè)模型的重點(diǎn)了。

4、客戶信用分?jǐn)?shù)分層的時(shí)候，怎么知道這層大概分多少？

針對有人工參與的模型，分?jǐn)?shù)分層，以下我的建議建議建議（我只是建議，我的個(gè)人工作經(jīng)驗(yàn)，每家公司標(biāo)準(zhǔn)不一樣）如下：

A層：逾期率大概是總體逾期率的30%以下這樣子，假設(shè)你的總體逾期率是10%，那么你的A層的逾期率大概就是1%-3%這樣子，這層的客戶人數(shù)占比大概是總體的4%-8%左右。

B層：逾期率大概是總體的一半左右，客戶人數(shù)占比大概是總體客戶數(shù)的10-15%。

C層：逾期率跟總體差不多，客戶人數(shù)占比大概是總體客戶數(shù)的30%-50%，一般我是AB兩層以及DE兩層進(jìn)不了就到這里來了。

D層：逾期率大概是總體的1.2-1.4倍，客戶人數(shù)占比大概是總體客戶數(shù)的10-15%。

E層：逾期率大概是總體的1.5倍以上，具體看你們公司的容忍度，客戶人數(shù)占比大概是總體客戶數(shù)的4%-8%。

以上是我的建議！！！，建議！！！，知道我為什么一直強(qiáng)調(diào)是建議嗎，知道吧，總有喜歡挑事的。

5、是不是進(jìn)入邏輯回歸的模型的woe都需要單調(diào)。

希望單調(diào)的原因是因?yàn)?#xff0c;邏輯回歸對于線性可分的數(shù)據(jù)，效果會很明顯，但是并不是你的變量進(jìn)入模型都要單調(diào)，數(shù)據(jù)分析，首先最重要的是尊重?cái)?shù)據(jù)的原始性，變量分組并不是為了等下的woe單調(diào)，而是利用分組把該變量的特征可以最大化。

舉個(gè)例子，有個(gè)變量的5個(gè)組是0.07, 0.14，0.09，0.25，0.36，我是不建議你把為了有個(gè)單調(diào)的趨勢，把0.14和0.09這兩個(gè)組合并在一起的，假設(shè)你這個(gè)變量是你可以很大的自信認(rèn)為，他就是越大客戶質(zhì)量越不好，那你合并我也不會勸你，但是再你拿不定這個(gè)變量是不是這種情況的時(shí)候，不要合并，檢查一下是不是客戶的通過率造成這種問題。

所以，最好的每個(gè)變量的woe單調(diào)最好，但是如果不單調(diào)，業(yè)務(wù)解釋上過得去的呈現(xiàn)u字型的也是可以的。

6、為什么我的隨機(jī)森林過擬合？

隨機(jī)森林回過擬合是常有的事，只是說能不能讓他不要太過了，建議如下：

1、不要種那么多棵樹。

2、取數(shù)的時(shí)候，范圍盡量廣一些，我是覺得取建模數(shù)據(jù)時(shí)候，不要就取近一個(gè)月的數(shù)據(jù)，特別像我們這種大額貸款的，每年中旬的會比其他時(shí)候單量要多一些，數(shù)據(jù)的時(shí)間跨度建議是在半年到一年，兩年就太多了。

3、可以分組之后再進(jìn)入模型

4、還有其他我想不到的，期待大神來留言區(qū)解答。

總結(jié)

以上是生活随笔為你收集整理的【未来可能用到】关于模型的100个问答-part2的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：客户流失预警模型-GBDT模型
下一篇：【未来可能用到】关于模型的100个问答-

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【未来可能用到】关于模型的100个问答-part2

總結(jié)