日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【模型迭代】拒绝推断(RI)

發布時間:2025/3/21 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【模型迭代】拒绝推断(RI) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

問:項目剛上線,貸后表現也有了,能不能開發評分卡?
問:一般評分卡開發這塊怎么處理呢?就只針對準入審批通過的客群嗎?
問:你們業務中,是直接用模型通過的樣本去迭代模型嗎?
問:拒絕推斷有什么好方法嗎?


??本文關鍵詞:

??① 冷啟動?② 選擇偏差?③ 模型失效?④ 樣本補齊?⑤拒絕推斷


??評分模型開發中,模型訓練非常依賴樣本的選擇。負樣本不足,預測效果不好;負樣本太多,則可能過度學習,導致過擬合;部分特征的分布隨業務或時間的變化而發生變化,也會導致模型訓練的結果發生偏移。

??我們先來思考三個場景:

??場景一:冷啟動: 在業務初期,通常由于各種原因,風控需要冷啟動,如果沒有之前留存的或者外部協助開發的評分模型,那么就很難通過量化評分的手段參與授信決策。這時,就需要多維度的策略規則去篩選初期用戶,類似準入規則、反欺詐規則、風險名單、多頭借貸、共債信息等。這個時候的審批策略,可能不一定行之有效,相當于隨機選擇接受的客戶,那么接受樣本和拒絕樣本的分布所差無幾,這種情況下,EDA探索分析后如無明顯問題,首批有貸后表現的樣本,是可以直接投入模型開發的。

??場景二:規則影響 在業務開展一段時間后,信貸審批流程便會逐步添加包括反欺詐識別、策略規則、PRE_A過濾、授信評分、人工審批等內容。隨著數據共聯的加強、數據維度的豐富、風控策略的完善,審批環節的前置策略和規則在整個授信體系的作用愈加明顯。這個時候,通常為了開源節流,我們會以漏斗模型和決策樹模型去設計信貸風險體系。那么強規則拒絕的客戶,便不再需要通過評分模型的檢測。這就導致通過模型的用戶,已經經過了層層篩選,樣本本身攜帶的強負樣本信息,也經過了層層過濾,那么,假如這個時候開發評分卡,雖然模型所選的特征基本不與前置規則重疊,特征分布不會受到影響,但Label中的負樣本占比,會大大降低。導致本應有的極差的那些壞客戶的信息,沒有在模型中出現。這就引出本文第二個問題:“一般評分卡開發這塊怎么處理呢?就只針對準入審批通過的客群嗎?”

??場景三:模型迭代 業務進行的很順利,模型評分的作用越來越強,隨著時間推移,模型效果會隨之下降,就需要迭代模型,即重新選擇樣本,重新訓練模型,重新設置評分區間,重新決策。因為只有模型審批通過的客戶才會有貸后,才會有Label,所以,此刻在用這部分樣本進行建模,受影響的不單單是負樣本數量的占比、負樣本信息的收集,整個模型的特征分布,也會發生很大的偏移。

??綜上幾個場景,我們發現:在做申請評分卡時,受業務階段、授信流程、策略規則、通過率、樣本迭代等的影響,如果建模僅基于具有已知性能的可接受總體,則申請評分卡具有自然發生的選擇偏差。自然樣本信息多多少少會有損失,機器學習模型效果偏移。因此,在每一次模型開發中,都需要檢測樣本的分布,必要的時候調整負樣本占比,使其盡可能降低偏差,達到均衡的效果。特征分布合理,且無缺失,好壞樣本信息得以完全學習,才會訓練一個預測能力強穩定性較高的模型。

??那么,為了解決選擇偏差問題,申請評分卡模型應該包含兩個人群。 這意味著需要推斷拒絕的未知性能,我們使用拒絕推斷(RI)方法來完成,也就是拒絕假設、拒絕演繹。

??評分卡開發過程中,拒絕推斷的大致步驟為:

  • ① 基于接受樣本構建模型 :BM(Base_Model)
  • ② 使用拒絕推斷技術推斷拒絕樣本違約概率
  • ③ 將接受樣本和拒絕推斷后的樣本合并成一個數據集:DS(DataSet)
  • ④ 在DS上構建一個新模型:FM(Final_Model)
  • ⑤ 驗證FM
  • ⑥ 根據FM創建完整的評分卡模型

??拒絕推斷是對一種“非隨機性缺失數據”(MNAR)的處理形式。 總體來說有兩種廣泛的技術:分配法和增強法,一種依賴經驗,一種依賴算法。兩種技術還可以選擇不同的方法。如下圖所示:

??下面,著重介紹幾種比較流行的方法,即增量下探、比例分配、簡單擴展、模糊增擴展、分段擴展等。

(一)增量下探法

??下探法就是在生產環境中某一段時間內,接受所有申請,積累全量數據。或者將模型評分cutoff的取值下移部分,讓更多的的申請通過審批。等該批客戶有了貸后表現,直接選擇全量樣本建模,這樣會縮小樣本數據和未來要預測的數據在分布上的偏差。下探法可能要承受較大的壞賬損失,有點花錢買數據的感覺,一般銀行和機構通常不這么做,所以一般可用于通過率較高,壞賬率對應也高的現金貸業務中。之前現金貸火爆的時候,行業監管還沒到位,加之催收力度很強,所以壞賬可控,收益也就高。那時許多現金貸公司的風控手段極其簡陋,基本是驗證身份、過一下黑名單等簡單措施,通過率極高。這樣的環境相當于提供了一個天然的數據收集實驗場,各類樣本的信息都比較完整。實際生產環境表明,增量下探的效果很明顯。

(二)分配賦值法

??賦值法是指通過外部數據或人工的方法,為拒絕樣本打上好壞標簽。比如比例分配;比如通過查看外部數據發現此人在其他機構發生過很嚴重的違約行為,或者在多家機構被打上了各種風險名單的標簽,基于規則直接標記。如果數據采集的成本不高,采集難度不大,這種方法可行且有效。(如:有些機構的數據服務是以年費形式,這樣成本便可忽略不計),不過,這種方法對增加標簽定義維度的要求較高。另外還可以讓審批人員對拒絕客戶進行電核復核,標記出認為違約可能性高的樣本,不過此種方法需要花費很多的人力,且加入了主觀的人為因素,容易造成偏差。

??例:比例分配:

(三)擴展法

??那么, 對模型師而言,最為常用的技術便是模型擴展法,基于數據,創造數據?;舅悸窞橄扔媒邮軜颖窘?#xff0c;然后預測拒絕樣本的好壞,最后將拒絕樣本和接受樣本放在一起重新建模。模型擴展法有以下幾種。

1、簡單擴展法

??步驟

  • ① 在有貸后表現的樣本上建模。
  • ② 用此模型預測拒絕樣本違約概率吧,設置閾值ppp,大于ppp為壞,小于ppp為好。閾值選擇的依據為拒絕樣本的壞賬率比接受樣本的壞賬率高,一般為2-5倍,當然要結合客群特征、通過率等因素綜合考慮。該方法的一個缺點是,拒絕樣本的分類有一定的隨機性。
  • ③ 將完成預測的拒絕樣本和真實貸后樣本混合,重新建模。
  • ④ 重復②③,至模型參數收斂,一般迭代兩三次就能得到收斂模型。

2、模糊擴展法

??模糊擴展法并不是將拒絕樣本直接標記為好或壞,而是根據打分概率將一個拒絕樣本拆分成一個好樣本和一個壞樣本,打分概率為權重。具體可以按以下步驟進行:

  • ① 在有貸后表現的樣本上建模。
  • ② 用此模型為第iii個拒絕樣本打分Pi(bad概率),然后將該拒絕樣本拆分成一個壞樣本和一個好樣本,壞樣本的權重為Pi,好樣本的權重為1-Pi,而每個接受樣本的權重均設置為1,這時可以根據權重計算壞賬率。還可以調整拆分后的拒絕樣本的權重,使拒絕樣本的壞賬率是接受樣本壞賬率的F倍,比如壞樣本的權重調整為PiC/(PiC+1-Pi),好樣本的權重調整為(1-Pi)/(Pi*C+1-Pi)。
  • ③ 將完成預測的拒絕樣本和真實貸后樣本混合,重新建模。
  • ④ 重復②③,至模型參數收斂。

3、分段擴展法(Parcelling)

??上述所說的簡單擴展,將拒絕樣本按照某個閾值采用一刀切的方式分成好樣本和壞樣本,這樣的切分使拒絕樣本的違約分布和接受樣本差別較大,而分段擴展正好修正這一缺點。步驟如下:

  • ① 在有貸后表現的樣本上建模。
  • ② 然后為接受樣本和拒絕樣本打分score,下圖為每個評分區間內接受樣本的違約分布和拒絕樣本的數量:

??接下來,按照各分數段對拒絕樣本打標簽。一般拒絕樣本的違約率高于接受樣本,這里假設拒絕樣本的違約率是同分數段接受樣本的2倍。分段之后,按照簡單擴展法中的做法繼續進行。下圖為打好標簽的拒絕樣本的違約分布:

  • ③ 將②中打好標簽的拒絕樣本和接受樣本放在一起建模。
  • ④ 重復②③,至模型參數收斂。

4、其他方法

??除了上述幾種方法,還有一些其他方法,比如可以通過近鄰(Nearest Neighbor)算法預測拒絕樣本的好壞,然后用拒絕樣本和接受樣本建立模型。

??不難想到,手段越復雜,推斷效果越不明顯,甚至比原有模型效果更差。排除成本環境等因素的考慮,最直接高效的方法,仍然是增量下探,將更多的壞樣本放入模型。其次,采用半賦值半擴展的方式,也許也會收獲較好的效果。

??完成拒絕推斷后,檢驗效果的方式依舊是我們熟知的分段Bad_rate&方法以及KS、PSI等指標,不再贅述。

??就本文主要內容做如下兩方面的總結:

??1)什么時候做拒絕推斷?:

?? ① 前置規則少,或者前置策略不是很有效的情況下,接受樣本和拒絕樣本的分布應該差別不大,就沒必要做拒絕推斷。

?? ② 相反,前置審批策略越有效,接受樣本和拒絕樣本的特征分布差別就越大,那么就越有必要做拒絕推斷。

??2)拒絕推斷采用什么方法?:

?? 按照效果排序優先級:

?? ① 首先考慮增加真實業務樣本,在老板允許的情況下,增量下探,探個究竟。

?? ② 其次盡可能分配賦值,基于強特征和比例采集等方法打出標簽,效果也很欣慰。

?? ③ 采用簡單擴展、拆分擴展、分段擴展的方式,基于樣本,訓練樣本。

?? ④ 最后,做一些半監督或者無監督的嘗試。

??其實,拒絕推斷一直存在爭議,有人認為沒必要做,有人認為有必要做。但在條件允許的情況下,比如若有充足的數據和時間,嘗試做一下,兩者做出來的結果做個對比,總不是壞事。另外做拒絕推斷也是為了更多更準確地找出好客戶,降低成本,提高收益。

【參考】

  • ① 大數據建模的一點一滴,作者:小石頭 https://mp.weixin.qq.com/s/RnQXPUBJe8-NUvtPDho0vw
  • ②申請評分卡模型中的拒絕推斷(RI)技術,作者:豬邏輯公園 https://blog.csdn.net/qq_15111861/article/details/84663490
  • ③ 研習社群成員

??對數據分析、機器學習、數據科學、金融風控等感興趣的小伙伴,需要數據集、代碼、行業報告等各類學習資料,可添加微信:wu805686220(記得要備注喔!),也可關注微信公眾號:風控圏子(別打錯字,是圏子,不是圈子,算了直接復制吧!)

關注公眾號后,可聯系圈子助手加入如下社群:

  • 機器學習風控討論群(微信群)
  • 反欺詐討論群(微信群)
  • python學習交流群(微信群)
  • 研習社資料(qq群:102755159)(干貨、資料、項目、代碼、報告、課件)

相互學習,共同成長。

總結

以上是生活随笔為你收集整理的【模型迭代】拒绝推断(RI)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 一区二区三区三区在线 | 麻豆传媒在线免费 | 成人污污视频在线观看 | 丝袜国产在线 | 台湾swag在线观看 | 国产天堂久久 | 波多野av在线 | 秋霞网一区二区三区 | 91视频你懂的 | 完美搭档在线观看 | 神马午夜场 | 天天搞天天干 | 色天堂视频 | 亚洲视频一区在线观看 | 日韩精品在线视频免费观看 | wwwxxx黄色片 | 深夜视频在线看 | 久久国产精品一区二区 | 欧美日韩国产精品一区二区三区 | 一区二区三区久久 | 99国产精品99久久久久久粉嫩 | 日韩免费视频一区二区视频在线观看 | 亚洲精品ww | 38激情| 午夜在线视频观看 | 久久综合伊人77777蜜臀 | 精品电影在线观看 | 亚洲色图日韩精品 | 深夜视频在线观看 | 日韩欧美一区二区视频 | 韩日午夜在线资源一区二区 | 亚洲图片欧美另类 | 国产亚洲欧美视频 | 久久久成人免费 | 狠狠操夜夜 | 精品成人一区二区三区 | 蜜臀av免费一区二区三区水牛 | 欧美一级成人 | 天天干天天舔天天射 | 日本熟女毛茸茸 | 久久综合爱 | 亚洲激情a | 久草中文在线观看 | 国产乱子伦精品视频 | 欧美11p | 欧洲国产视频 | cao久久 | 屁屁影院国产第一页 | 18pao国产成视频永久免费 | 在线播放亚洲精品 | 国产毛片欧美毛片久久久 | 日韩一卡| 色老头在线观看 | 精品一区二区三区在线观看视频 | 黄色小视频在线看 | 999视频| 亚洲一区二区国产精品 | 国内精品国产三级国产aⅴ久 | 欧美日韩亚洲二区 | 亚洲AV无码成人精品区先锋 | 女人洗澡一级特黄毛片 | 欧美aaaaaa| 欧美日韩一区二区三区在线播放 | 亚洲精品二区三区 | 亚洲玖玖爱| 国色天香网站 | 国产乱国产乱老熟 | 91丨九色丨蝌蚪丨对白 | 无码成人精品区一级毛片 | 在线视频激情小说 | 亚洲福利午夜 | 久久九九久精品国产免费直播 | 国产一级视频 | 午夜av在线 | 韩日a级片| 国产美女www爽爽爽视频 | 精品人妻一区二区三区香蕉 | 国产在线欧美在线 | 中文字幕在线观看三区 | 国产suv精品一区二区三区 | 日批视频在线播放 | 中文字幕无线精品亚洲乱码一区 | 国产成人av无码精品 | 欧美一级网址 | 日本在线视频免费 | 国产一区二区视频网站 | 精品一区在线观看视频 | 妻色成人网 | 国产福利一区二区三区视频 | 欧美日本日韩 | 久久久精品福利 | 国产无套视频 | 亚洲精品国产精品乱码 | 亚洲白浆 | 国产一级片| 国产成人精品女人久久久 | 亚洲午夜激情 | 色版视频| 男女h网站|