日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【未来可能用到】关于模型的100个问答-part1

發(fā)布時間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【未来可能用到】关于模型的100个问答-part1 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一.我的因變量怎么定義?

答:因變量具體如何定義,鏈接在這里建模準備一定要做的這幾件事,這里鏈接包括取數(shù)怎么取都說的很清楚,請參考。其實申請卡的因變量已經(jīng)被說爛了,主要是大部分問的是反欺詐模型的因變量怎么定義,我不會在這里明確跟你講什么樣的欺詐客戶,我只是提供你一個思路,首先欺詐客戶的性質(zhì)是什么:沒有還款意愿。那么沒有還款意愿的客戶會還幾期就不還,就需要你去看你們公司的賬齡分析表,你們對欺詐客戶的容忍度,這里再說一件事,一般欺詐都不是只騙你這家就跑的,為了能多騙幾家,一般都會還一段時間,等多借幾家的時候再跑,那么具體幾期,具體看你們公司的貸款業(yè)務是多長周期的,大概是周期的1/9-1/12,為因變量的賬齡,個人經(jīng)驗建議值!!!!

2.缺失值怎么處理?

有些朋友可能是剛轉(zhuǎn)行,或者剛畢業(yè)的同學,可能缺失值停留在用中間值,均值,眾數(shù)填補這種方法,但其實在建模中,不能說這些方法不好,而是畢竟還是要尊重數(shù)據(jù)的原始性,所以這些填補的動作可以在特定的時候才用,首先缺失值并不是無緣無故缺失的,那么缺失的原因怎么產(chǎn)生的,這時候怎么檢查?

缺失原因檢查方法:

不同產(chǎn)品造成的缺失:因為不同的產(chǎn)品有不同的產(chǎn)品準入規(guī)則,那么意味著不同的產(chǎn)品客戶提供的資料會有所不同,例如,一個產(chǎn)品是商人貸,一個是白領(lǐng)貸,那么白領(lǐng)貸就需要填寫薪資,或者提供工資卡流水,那么商人貸本身面對的客群就不是固定收入,屬于經(jīng)商的,那么薪資這項就很經(jīng)常會缺失。那么這點的檢查就需要你熟悉產(chǎn)品的準入準則,從申請資料尋找缺失的原因,這種確實大部分發(fā)生在客戶的屬性資料這一部分的數(shù)據(jù)。

不同時間造成的缺失:同個產(chǎn)品,會因為不同時間造成數(shù)據(jù)的缺失,例如某個時間,這個產(chǎn)品是接入一個第三方評分的,但是后面這家公司取消這個產(chǎn)品,那么這時候意味這個產(chǎn)品以后就沒有了,這時候,你這個變量就意味著不能用了,還有另外一種,就是那種短時間的系統(tǒng)更新或者迭代造成的缺失,例如你們的風控引擎或者風控系統(tǒng)在某個時間段更新了,或者換了系統(tǒng),那么時候在更新、更換的過程中,可能因為有些疏忽,某些數(shù)據(jù)沒有過來,那么這時候這部分數(shù)據(jù)是少量的缺失。以上兩種情況,可以通過變量不同時間的一個返回量來檢查是否存在是在某個特定時間的缺失。

客戶本來就沒有的缺失:舉個例子,征信報告中,可能這個客戶本來就是沒有貸款記錄,那么假設你們it不是考慮周全可能返回給你個空的數(shù)據(jù),那么這時候,你就要搞清楚客戶到底是沒有征信報告還是有征信報告沒有貸款記錄。

It失誤的數(shù)據(jù)缺失:這類數(shù)據(jù)可能是第三方有提供,但是對接的人疏忽沒有顧慮到,我之前有個運營商的數(shù)據(jù)的情況就是這樣子,返回的時間變量是有小時分秒的,但是it對接的人不知道為了省事還是怎么樣,直接就給了我一個日期,當時就及時提了需求,更改了這個數(shù)據(jù),也有時候,例如客戶在填寫申請的時候,有一個選項是月收入,那么你希望月收入成為必填項,那么就可以提需求要求it列為必填項,我這里只是舉個例子,不要跟我說什么,我們這邊沒有得提需求什么的,各家公司不一樣,我提供個思路而已。

就是缺失:那這種缺失就是上面幾種缺失都不是的時候,這種就是純?nèi)笔А?/p>

填補的方法:

針對不同產(chǎn)品造成的缺失:那么我建議在數(shù)據(jù)足夠多的情況下,可以分開建模。

時間造成的缺失:如果這個缺失是在時間歷史上某些結(jié)點的較少的數(shù)據(jù),那么建議可以去掉。那么假設這個數(shù)據(jù)是在未來也會缺失的情況下,那么不要這個變量,你以后都沒有這個變量,你還拿他建模干嘛。

客戶本來就沒有的缺失:那么這種,例如沒有貸款,那就貸款筆數(shù)這種變量就應該置0。

It失誤的數(shù)據(jù)缺失,找it是否可以修復補充之前的數(shù)據(jù),如果修復不了,轉(zhuǎn)最后一點。

就是缺失:

1.在分組的時候?qū)⑷笔Х譃橐唤M(缺失比例大概在5%以上,假設你的建模樣本5000+)

2.再多衍生一個變量,區(qū)分缺失和非缺失的特征。就是例如你有個變量叫在網(wǎng)時長,那么這個數(shù)據(jù)有一部分缺失了,那么你可以再衍生一個變量叫是否有在網(wǎng)上時長數(shù)據(jù)(缺失比例大概在5%以上,假設你的建模樣本5000+)

3.刪掉(幾個缺失的話),變量的缺失超過70,我就直接舍棄這個變量了,前提是缺失值做衍生變量也沒啥用了。

4.按照萬能大法(補眾數(shù),平均值,中位數(shù).....)補充,雖然我不喜歡,但是現(xiàn)實就是喜歡強迫你。

三.建模樣本好壞比多少合適?

這個問題在群里說的次數(shù)不少于十次,這個問題有沒有準確的答案,你現(xiàn)在的數(shù)據(jù)要是壞客戶的特征很明顯,那么你98:2都可以,但是你本身你的壞客戶的特征在擁有的變量中的特征都很離散的話,那么你怎么調(diào),效果都差不了多少。建議經(jīng)驗值是10%-20%的一個壞客戶占比,我個人認為不用調(diào)整到1:1的程度,這里提及一點就是,模型擬合的時候,還需要驗證原樣本的效果,效果可取才可以認為模型效果可取。

四.變量分幾組?

我先說我建議幾組,我的建議是2-8組,我覺得8組都算多了,我能容忍是6組,太多組,首先是分到一組的數(shù)據(jù)太少,得出的結(jié)論擔心會有偶然性,其次就是過擬合的問題。這里提及一點就是我建議分組的時候最少一組的數(shù)量至少要占到總體樣本的5%。

五.怎么篩選變量?

首先說下,好的變量的中心思想是:變量對于因變量有一定的區(qū)分度。

篩選變量的方法有以下幾種:

1.iv值,建議小于0.02以上的取。

2.基尼系數(shù),這個是衡量貧富差距那個,不是決策樹那個,雖然我經(jīng)常搞混。

3.隨機森林變量重要性,我還蠻喜歡這個方法的,因為不用分組,避免了我分組之后影響了變量的效果

4.Psi,穩(wěn)定性指標,這個指標,可以當參考。

5.Person卡方統(tǒng)計量。

通過變量的以上5個統(tǒng)計量,對比大小,舍棄一部分沒有明顯特征的變量。

六.我要轉(zhuǎn)化woe嗎?

woe以及啞變量其實本質(zhì)上是一樣的,woe并不能增加模型的效果,只是讓變量最終生成標準的評分卡方便快捷些。

七.woe為0或者為空怎么辦?

首先,我們看woe的公式是什么那么該層的woe的值為0的情況是這一層沒有壞客戶,都是好人,那么這時候,假設你這組有5%的數(shù)據(jù),那么這個變量直接就可以做策略啦,做啥模型啊。同樣的道理,要是該層的woe為空,那么就是這一層沒有好客戶,全是壞人。這種woe產(chǎn)生的一般是很少見的,會產(chǎn)生這樣子的情況,應該檢查是不是你這組的客戶數(shù)量特別少,要是不是特別少的話,那你就這時候報告領(lǐng)導了,你發(fā)現(xiàn)了一個可以做策略的變量,分到這組的客戶極好(極壞)。

八.擬合的模型參數(shù)估計用那個?

擬合模型的時候有三個數(shù)據(jù),訓練數(shù)據(jù),測試數(shù)據(jù),驗證數(shù)據(jù)。這三個數(shù)據(jù)用同一批變量會產(chǎn)生三組不同的參數(shù)估計。建議一下三種選取方式:

1.將這三個數(shù)據(jù)集的參數(shù)估計取出來的之后,取平均值。

2.把這三個數(shù)據(jù)合成一個之后,分成十份,分別算出參數(shù)估計之后再取平均值,第一種的升級版

3.取驗證集的參數(shù)估計,因為驗證集是最接近現(xiàn)在的時間的客戶數(shù)據(jù),可以認為這樣子比較接近現(xiàn)階段客戶的總體特征

4.取訓練數(shù)據(jù)集的參數(shù)估計,因為一般情況下,訓練數(shù)據(jù)集的數(shù)據(jù)的數(shù)量是最多的,在一定程度上可以認為,數(shù)據(jù)的覆蓋面比較大,可以全面提取客戶的數(shù)據(jù)特征。

?

?

總結(jié)

以上是生活随笔為你收集整理的【未来可能用到】关于模型的100个问答-part1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 成人免费网站在线观看 | 国产精品视频a | 欧美日韩视频在线观看一区 | gav在线| 91视频在线网站 | 成人动漫中文字幕 | 欧美国产日韩一区二区三区 | 男女视频一区 | 天天摸天天看 | 中文在线观看免费 | 久久久久久99精品久久久 | 一区二区av电影 | 人人看超碰 | 免费a网 | 在线欧美激情 | 人妻无码一区二区三区免费 | 欧洲一区二区三区在线 | 日本黄色特级片 | 熟妇人妻一区二区三区四区 | 一区二区内射 | 天天躁日日躁狠狠躁av麻豆 | 欧美xxxx免费虐 | 欧美日本在线看 | 波多野结衣中文字幕一区二区 | 在线观看的网站 | 色片在线播放 | 亚洲一级一级 | 精品乱人伦一区二区三区 | 色射影院| 午夜理伦三级理论 | 欧美老肥婆性猛交视频 | 国产av剧情一区 | 日韩在线一二 | 激情网久久| 99涩涩| 国产a∨精品一区二区三区仙踪林 | 天天玩天天操 | 碰碰97| 69国产在线 | 青草视频网 | av短片| 国产69精品一区二区 | 亚洲精品一二三区 | 日韩欧美一区在线观看 | 久久久99国产精品免费 | 色屁屁ts人妖系列二区 | 欧美色图17p | 精品欧美一区二区久久久久 | 国产农村妇女精品一二区 | 欧美特级a| 91插插插影库永久免费 | 97插插插 | 欧美黄色小视频 | 欧美综合视频在线观看 | 四色在线 | 亚洲在线免费看 | 欧美日韩一区二区电影 | 亚洲色欧美另类 | 日韩网红少妇无码视频香港 | 日韩欧美福利视频 | 偷拍亚洲综合 | 国产精品系列在线 | 日韩一区二区三区免费在线观看 | 污污的网站在线免费观看 | 国产真人真事毛片 | 亚洲视频在线免费看 | 波多野吉衣一区 | 中文字幕高清在线观看 | 一区二区三区日韩在线 | 人妻精品无码一区二区 | 日韩精品一区二区亚洲av性色 | 精品视频免费看 | 欧美日韩国产区 | 天天干天天插 | 波多野结衣电影在线播放 | 好吊日在线观看 | h视频免费在线 | 神秘马戏团在线观看免费高清中文 | av网址在线免费观看 | 在线观看不卡一区 | 成在线人免费视频 | 精品国产一级片 | 欧美激情伊人 | 涩涩网站免费 | 精品www久久久久久奶水 | 久久无码视频一区 | 男女日批视频 | 岛国av免费在线观看 | 欧美日韩在线视频一区二区三区 | 欧美大片在线看免费观看 | 少妇高潮一区二区三区99 | 久久精品久久99 | 明日叶三叶| 欧美激情日韩 | 香蕉久久一区二区三区 | 亚洲免费一级 | 影音先锋中文字幕在线 | 日本一区精品视频 | 毛片自拍 |