原来评分卡模型的概率是这么校准的!
在建立評分卡模型的時候,往往建模樣本的好壞比和實際情況是不一致的,這是因為:
?
1. 產品本身壞樣本較少,為了提高評分模型的敏感程度,會對壞樣本進行過抽樣或者好樣本進行欠抽樣;
2. 如果是乙方公司,好壞樣本的來源可能不同,或者甲方爸爸并沒有全量反饋樣本表現,那么自然樣本中的好壞比無法反映真實的情況。
?
然而,用一個好壞比失真的樣本建立好評分卡模型后,如果想要計算每個分數段的壞樣本率,得出來的結果是會大于真實情況的。原因很簡單,邏輯回歸中的截距是約等于好壞比的對數的(因為評分卡模型預測的是該樣本為壞樣本的概率,因此使用的是壞:好)。如果樣本的壞樣本占比比實際情況要高,那么模型預測出來的每個樣本的違約概率都會偏大。那么想要還原每個客戶真實的違約概率,就需要進行一個概率校準。
?
校準的方式也非常簡單。首先我們需要一個目標好壞比odds1,它可以是進行過抽樣/欠抽樣前產品真實的好壞比(對應上面情況1),也可以是行業平均水平(對應上面情況2)。如果建模樣本的實際好壞比是odds的話,那么我們只需要在邏輯回歸擬合出來的截距上再加一個ln(odds1/odds)即可(這一步發生在sigmoid函數轉換前)。
?
這種校準方法在直觀上也非常好理解,因為ln(odds1/odds)是等于ln(odds1)-ln(odds)的,而前面也提到過,邏輯回歸擬合出來的截距是約等于ln(odds)的,那么在截距上再加上ln(odds1/odds),相當于只是把ln(odds)抵消掉,變成了實際好壞比ln(odds1)而已。
?
然而這只是每個客戶違約概率的校準,即使是校準后,如果計算每個分數段的好壞比,依然會被打回原形。這是因為這個過程雖然校準了每個客戶違約概率的值,但是并不會改變評分模型的排序順序。因此對計算出來的好壞比,也要有一個校準的過程:對好壞比進行一個sigmoid的反函數,加上ln(odds1/odds),再用sigmoid函數運算回來,這樣得出的好壞比就是接近真實情況的好壞比了。
?
下面舉一個例子,某評分卡模型建模樣本各分數段的好壞分布如下:
?
?
而我們抽樣前or根據經驗,實際上該產品的違約率只有2%左右,那么這個壞樣本占比會比產品上線后實際落在該分數段的壞樣本占比要高得多。要還原真實的情況,需要進行如下校準:
?
?
上圖中每一列的計算公式為:
A=ln(odds)
B=A+ln(odds1/odds)=A-1.6946
C=1/(1+exp(-B))
?
得出來的C列就是各分數段預測出來的真實水平的違約概率了~
總結
以上是生活随笔為你收集整理的原来评分卡模型的概率是这么校准的!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【待继续研究】除了专家模型,这两大模型也
- 下一篇: 模型验证的常用武器k-s