【未来可能用到】关于模型的100个问答-part1
一.我的因變量怎么定義?
答:因變量具體如何定義,鏈接在這里建模準備一定要做的這幾件事,這里鏈接包括取數(shù)怎么取都說的很清楚,請參考。其實申請卡的因變量已經(jīng)被說爛了,主要是大部分問的是反欺詐模型的因變量怎么定義,我不會在這里明確跟你講什么樣的欺詐客戶,我只是提供你一個思路,首先欺詐客戶的性質(zhì)是什么:沒有還款意愿。那么沒有還款意愿的客戶會還幾期就不還,就需要你去看你們公司的賬齡分析表,你們對欺詐客戶的容忍度,這里再說一件事,一般欺詐都不是只騙你這家就跑的,為了能多騙幾家,一般都會還一段時間,等多借幾家的時候再跑,那么具體幾期,具體看你們公司的貸款業(yè)務是多長周期的,大概是周期的1/9-1/12,為因變量的賬齡,個人經(jīng)驗建議值!!!!
2.缺失值怎么處理?
有些朋友可能是剛轉(zhuǎn)行,或者剛畢業(yè)的同學,可能缺失值停留在用中間值,均值,眾數(shù)填補這種方法,但其實在建模中,不能說這些方法不好,而是畢竟還是要尊重數(shù)據(jù)的原始性,所以這些填補的動作可以在特定的時候才用,首先缺失值并不是無緣無故缺失的,那么缺失的原因怎么產(chǎn)生的,這時候怎么檢查?
缺失原因檢查方法:
不同產(chǎn)品造成的缺失:因為不同的產(chǎn)品有不同的產(chǎn)品準入規(guī)則,那么意味著不同的產(chǎn)品客戶提供的資料會有所不同,例如,一個產(chǎn)品是商人貸,一個是白領(lǐng)貸,那么白領(lǐng)貸就需要填寫薪資,或者提供工資卡流水,那么商人貸本身面對的客群就不是固定收入,屬于經(jīng)商的,那么薪資這項就很經(jīng)常會缺失。那么這點的檢查就需要你熟悉產(chǎn)品的準入準則,從申請資料尋找缺失的原因,這種確實大部分發(fā)生在客戶的屬性資料這一部分的數(shù)據(jù)。
不同時間造成的缺失:同個產(chǎn)品,會因為不同時間造成數(shù)據(jù)的缺失,例如某個時間,這個產(chǎn)品是接入一個第三方評分的,但是后面這家公司取消這個產(chǎn)品,那么這時候意味這個產(chǎn)品以后就沒有了,這時候,你這個變量就意味著不能用了,還有另外一種,就是那種短時間的系統(tǒng)更新或者迭代造成的缺失,例如你們的風控引擎或者風控系統(tǒng)在某個時間段更新了,或者換了系統(tǒng),那么時候在更新、更換的過程中,可能因為有些疏忽,某些數(shù)據(jù)沒有過來,那么這時候這部分數(shù)據(jù)是少量的缺失。以上兩種情況,可以通過變量不同時間的一個返回量來檢查是否存在是在某個特定時間的缺失。
客戶本來就沒有的缺失:舉個例子,征信報告中,可能這個客戶本來就是沒有貸款記錄,那么假設你們it不是考慮周全可能返回給你個空的數(shù)據(jù),那么這時候,你就要搞清楚客戶到底是沒有征信報告還是有征信報告沒有貸款記錄。
It失誤的數(shù)據(jù)缺失:這類數(shù)據(jù)可能是第三方有提供,但是對接的人疏忽沒有顧慮到,我之前有個運營商的數(shù)據(jù)的情況就是這樣子,返回的時間變量是有小時分秒的,但是it對接的人不知道為了省事還是怎么樣,直接就給了我一個日期,當時就及時提了需求,更改了這個數(shù)據(jù),也有時候,例如客戶在填寫申請的時候,有一個選項是月收入,那么你希望月收入成為必填項,那么就可以提需求要求it列為必填項,我這里只是舉個例子,不要跟我說什么,我們這邊沒有得提需求什么的,各家公司不一樣,我提供個思路而已。
就是缺失:那這種缺失就是上面幾種缺失都不是的時候,這種就是純?nèi)笔А?/p>
填補的方法:
針對不同產(chǎn)品造成的缺失:那么我建議在數(shù)據(jù)足夠多的情況下,可以分開建模。
時間造成的缺失:如果這個缺失是在時間歷史上某些結(jié)點的較少的數(shù)據(jù),那么建議可以去掉。那么假設這個數(shù)據(jù)是在未來也會缺失的情況下,那么不要這個變量,你以后都沒有這個變量,你還拿他建模干嘛。
客戶本來就沒有的缺失:那么這種,例如沒有貸款,那就貸款筆數(shù)這種變量就應該置0。
It失誤的數(shù)據(jù)缺失,找it是否可以修復補充之前的數(shù)據(jù),如果修復不了,轉(zhuǎn)最后一點。
就是缺失:
1.在分組的時候?qū)⑷笔Х譃橐唤M(缺失比例大概在5%以上,假設你的建模樣本5000+)
2.再多衍生一個變量,區(qū)分缺失和非缺失的特征。就是例如你有個變量叫在網(wǎng)時長,那么這個數(shù)據(jù)有一部分缺失了,那么你可以再衍生一個變量叫是否有在網(wǎng)上時長數(shù)據(jù)(缺失比例大概在5%以上,假設你的建模樣本5000+)
3.刪掉(幾個缺失的話),變量的缺失超過70,我就直接舍棄這個變量了,前提是缺失值做衍生變量也沒啥用了。
4.按照萬能大法(補眾數(shù),平均值,中位數(shù).....)補充,雖然我不喜歡,但是現(xiàn)實就是喜歡強迫你。
三.建模樣本好壞比多少合適?
這個問題在群里說的次數(shù)不少于十次,這個問題有沒有準確的答案,你現(xiàn)在的數(shù)據(jù)要是壞客戶的特征很明顯,那么你98:2都可以,但是你本身你的壞客戶的特征在擁有的變量中的特征都很離散的話,那么你怎么調(diào),效果都差不了多少。建議經(jīng)驗值是10%-20%的一個壞客戶占比,我個人認為不用調(diào)整到1:1的程度,這里提及一點就是,模型擬合的時候,還需要驗證原樣本的效果,效果可取才可以認為模型效果可取。
四.變量分幾組?
我先說我建議幾組,我的建議是2-8組,我覺得8組都算多了,我能容忍是6組,太多組,首先是分到一組的數(shù)據(jù)太少,得出的結(jié)論擔心會有偶然性,其次就是過擬合的問題。這里提及一點就是我建議分組的時候最少一組的數(shù)量至少要占到總體樣本的5%。
五.怎么篩選變量?
首先說下,好的變量的中心思想是:變量對于因變量有一定的區(qū)分度。
篩選變量的方法有以下幾種:
1.iv值,建議小于0.02以上的取。
2.基尼系數(shù),這個是衡量貧富差距那個,不是決策樹那個,雖然我經(jīng)常搞混。
3.隨機森林變量重要性,我還蠻喜歡這個方法的,因為不用分組,避免了我分組之后影響了變量的效果
4.Psi,穩(wěn)定性指標,這個指標,可以當參考。
5.Person卡方統(tǒng)計量。
通過變量的以上5個統(tǒng)計量,對比大小,舍棄一部分沒有明顯特征的變量。
六.我要轉(zhuǎn)化woe嗎?
woe以及啞變量其實本質(zhì)上是一樣的,woe并不能增加模型的效果,只是讓變量最終生成標準的評分卡方便快捷些。
七.woe為0或者為空怎么辦?
首先,我們看woe的公式是什么那么該層的woe的值為0的情況是這一層沒有壞客戶,都是好人,那么這時候,假設你這組有5%的數(shù)據(jù),那么這個變量直接就可以做策略啦,做啥模型啊。同樣的道理,要是該層的woe為空,那么就是這一層沒有好客戶,全是壞人。這種woe產(chǎn)生的一般是很少見的,會產(chǎn)生這樣子的情況,應該檢查是不是你這組的客戶數(shù)量特別少,要是不是特別少的話,那你就這時候報告領(lǐng)導了,你發(fā)現(xiàn)了一個可以做策略的變量,分到這組的客戶極好(極壞)。
八.擬合的模型參數(shù)估計用那個?
擬合模型的時候有三個數(shù)據(jù),訓練數(shù)據(jù),測試數(shù)據(jù),驗證數(shù)據(jù)。這三個數(shù)據(jù)用同一批變量會產(chǎn)生三組不同的參數(shù)估計。建議一下三種選取方式:
1.將這三個數(shù)據(jù)集的參數(shù)估計取出來的之后,取平均值。
2.把這三個數(shù)據(jù)合成一個之后,分成十份,分別算出參數(shù)估計之后再取平均值,第一種的升級版
3.取驗證集的參數(shù)估計,因為驗證集是最接近現(xiàn)在的時間的客戶數(shù)據(jù),可以認為這樣子比較接近現(xiàn)階段客戶的總體特征
4.取訓練數(shù)據(jù)集的參數(shù)估計,因為一般情況下,訓練數(shù)據(jù)集的數(shù)據(jù)的數(shù)量是最多的,在一定程度上可以認為,數(shù)據(jù)的覆蓋面比較大,可以全面提取客戶的數(shù)據(jù)特征。
?
?
總結(jié)
以上是生活随笔為你收集整理的【未来可能用到】关于模型的100个问答-part1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【未来可能用到】关于模型的100个问答-
- 下一篇: 你知道你的模型可以为公司赚多少钱吗