當前位置：首頁 >

《Credit Risk Scorecard》第五章： Development Database Creation

發布時間：2025/3/21 42 豆豆

生活随笔收集整理的這篇文章主要介紹了《Credit Risk Scorecard》第五章： Development Database Creation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第五章：Scorecard Development Process, Stage 3: Development Database Creation

Selection of Characteristics
?特征選擇需要考慮：（1）有預測能力；（2）可靠并且魯棒性；（3）易于收集；（4）可解釋性；?

Sampling
Development/Validation：樣本劃分為訓練集和測試集。這種常用的方法，交叉驗證，跨時間窗驗證等。
Good/Bad/Reject：
??????常見的開發樣本采樣方式：（）oversamling （過采樣），這種需要事后進行模型調整；（2）按比率采樣，開發樣本分布和真實樣本分布保持一致。

Development Data Collection ?and Construction
Random and Representative：樣本選擇必須是隨機的，代表開發的評分卡應用的對象（需要排除特定類型的樣本）。樣本傾斜某些群體會造成弱化其他群體的預測能力。
Nonsegmented Dataset：劃分不同場景開發評分卡，所有需要對不同場景構造相對獨立的切分樣本集。同時，也需要保留一份沒劃分的樣本。這樣的做的目的，是方便統計劃分場景的評分卡對不劃分場景的評分卡模型帶來的提升效果有多大。
Data Quirks：當收集數據的時候，需要了解數據庫相關數據變更歷史，尤其樣本窗口前后。這里面可能設計點字段值定義的改變，字段名的改變等。

Adjusting for Prior Probabilities （預測概率調整）
實際開發樣本是經過一定過采樣后的，這樣開發樣本好壞樣本分布和真實樣本中好壞分布是不一致的。針對這樣情況，需要模型做一定的處理，來還原真實的分布情況。當然，有些情況是不需要調整的，比如如果你只關心評分相對排序（關心分數具體值），或者自變量和目標值關系。
一般信用評分模型中是需要做特殊處理的，因為信用評分模型是用來做真實決策，設定閾值，考察評分和壞樣本率具體真實對應關系。
假設一個開發樣本集，有2000好樣本，2000壞樣本，2000拒絕樣本組成，那開發樣本，申請通過率為67%，壞樣本率為50%。但是真實的樣本分布情況，如下圖所示，其中申請通過率為70.5%, 壞樣本率為12.4%。

常見的調整方法：（1）偏置調整（offset）；（2）樣本權重調整（sample weight）

Offset Method：
偏置調整，一般可以在模型預測概率后進行調整，下面是調整公式。

Sampling Weights：
樣本加權，對樣本進行加權后再進行訓練。下面提到不同類別的樣本權重。

具體采用偏置調整方法，還是樣本加權方法？如果是lr模型，優先選擇偏置調整方法，如果是一些非線性模型，加權方法更合適。同時，如果是基于非分組變量開發，那偏置調整方法更好；如果基于分組變量，點分卡開發，加權方法更好，因為他不僅修正預測概率，同時更正了參數估計，進而使派生出的特征評分更合理。
?

總結

以上是生活随笔為你收集整理的《Credit Risk Scorecard》第五章： Development Database Creation的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《Credit Risk Scoreca
下一篇：《Credit Risk Scoreca

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

《Credit Risk Scorecard》第五章： Development Database Creation

總結