當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

信用评分卡—信贷准入A卡（逻辑回归）

發(fā)布時間：2024/1/23 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了信用评分卡—信贷准入A卡（逻辑回归）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

信貸評分卡

前言
1.邏輯回歸原理
- 1.1 求解方式
- 1.2 邏輯回歸為什么用sigmoid并且轉化后的輸出即為1的概率
2.邏輯回歸到評分卡
- 2.1 woe及IV
- 2.2 邏輯回歸到評分卡
- 2.3 評分卡的開發(fā)流程
3.邏輯回歸對數據的要求（比較嚴格）
4.邏輯回歸的優(yōu)缺點
5.算法需要注意的點

前言

在業(yè)界有幾種不同的流派（業(yè)界建立邏輯回歸）

直接用原始變量進行回歸（模型粗糙并不能生成評分卡）
從原始數據生成0/1的虛擬變量（dummy variable）進行回歸（FICO用的較多，已不是主流）
從原始數據生成woe（weight of evidence）進行回歸

1.邏輯回歸原理

1.1 求解方式

預測函數(線性回歸模型上加了sigmoid函數)： $hθ(x)=11+e?θx其中θx=θ0+θ1x1+θ2x2+...+θnxnh_\theta(x)=\frac{1}{1+e^{-\theta x}} \qquad 其中\(zhòng)theta x=\theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n$
對于二分類：
${p(y=1∣x,θ)=hθ(x)p(y=0∣x,θ)=1?hθ(x)\begin{cases} p(y=1|x,\theta)=h_\theta(x)\\ p(y=0|x,\theta)=1-h_\theta(x)\\ \end{cases}$
將其合并得到：
$p(y∣x,θ)=hθ(x)y(1?hθ(x))(1?y)p(y|x,\theta)=h_\theta(x)^y(1-h_\theta(x))^{(1-y)}$
利用極大似然估計得到（MLE）：
$L(θ)=∏i=1np(yi∣xi,θ)=∏i=1nhθ(xi)yi(1?hθ(xi))(1?yi)L_{(\theta)}=\prod_{i=1}^np(y_i|x_i,\theta)=\prod_{i=1}^nh_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{(1-y_i)}$
兩邊同時取log：
$logL(θ)=∑i=1m[yiloghθ(xi)+(1?yi)log(1?hθ(xi))]logL_{(\theta)}=\sum_{i=1}^m[y_ilogh_\theta(x_i)+(1-y_i)log(1-h_\theta(x_i))]$
對于 $logL(θ)logL_{(\theta)}$ 求最優(yōu)解即是求最大值(MLE)，為了用梯度下降的算法對 $logL(θ)logL_{(\theta)}$ 取負數，即 $?logL(θ)-logL_{(\theta)}$ 最小值也就是 $logL(θ)logL_{(\theta)}$ 的最大值：
$J(w)=?1mlogL(θ)=?1m∑i=1m[yiloghθ(xi)+(1?yi)log(1?hθ(xi))]J(w)=-\frac{1}{m}logL_{(\theta)}=-\frac{1}{m}\sum_{i=1}^m[y_ilogh_\theta(x_i)+(1-y_i)log(1-h_\theta(x_i))]$
根據梯度下降的求解可得 $θj\theta_j$ 的更新方式：
$θj:=θj?α1m∑i=1m(hθ(xi)?yi)xij\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$

1.2 邏輯回歸為什么用sigmoid并且轉化后的輸出即為1的概率

邏輯回歸的假設是y服從伯努利分布(E(X)=p，D(X)=p(1-p)),可以得出概率函數：
$f(x∣p)=px(1?p)1?x=exp(η?x+ln(1+eη))?η=ln(p1?p)滿足條件1f(x|p)=p^x(1-p)^{1-x}=exp(\eta*x+ln(1+e^\eta))\implies\eta=ln(\frac{p}{1-p})滿足條件1$
$η=xβ?(結合η=ln(p1?p))?E(Y)=p=g?1(η)=11+e?η滿足條件2、3\eta=x\beta \implies(結合\eta=ln(\frac{p}{1-p})) \implies E(Y)=p=g^{-1}(\eta)=\frac{1}{1+e^{-\eta}}滿足條件2、3$
在伯努利分布中E(Y)=p表示的就是1的概率

2.邏輯回歸到評分卡

2.1 woe及IV

woe的計算公式：
$WOEi=lnp(yi1)p(yi0)=lnBiBGiG(p(yi1)為i區(qū)間壞樣本占總體壞樣本比例，p(yi0)為i區(qū)間好樣本占總體好樣本比例，越大這個分組壞樣本可能性越大)WOE_i=ln\frac{p(y_{i1})}{p(y_{i0})}=ln\frac{\frac{B_i}{B}}{\frac{G_i}{G}}(p(y_{i1})為i區(qū)間壞樣本占總體壞樣本比例，p(y_{i0})為i區(qū)間好樣本占總體好樣本比例，越大這個分組壞樣本可能性越大)$
IV的計算公式：
$IV_i=(p(y_{i1})-p(y_{i0}))*WOE_i(WOE的加權求和。IV越大，區(qū)分度越大，價值越大)$

2.2 邏輯回歸到評分卡

$ln(odds)=ln(p1?p)=θ0+θ1x1+θ2x2+...+θnxn(其中x一般是woe編碼后的值，也可以是原始數據，輸出即為1的概率)ln(odds)=ln(\frac{p}{1-p})=\theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n(其中x一般是woe編碼后的值，也可以是原始數據，輸出即為1的概率)$
以上給的是概率，有時候還需要將概率以分數形式輸出，類似于螞蟻分。具體如下：
$Score_總=A+B*ln(odds)$
轉換步驟：
1、設定 $odds=θ0odds=\theta _0$ 時的分數 $P_0$
2、設定 $o d d s$ 每增加一倍時，增加分數為 $P D O$
3、當 $odds=θ0odds=\theta _0$ 時的分數 $P_0$ ， $odds=2θ0odds=2\theta _0$ 分數為 $P_0+PDO$
${p0=A+Bln(θ0)p0+PDO=A+Bln(2θ0)\begin{cases} p_0=A+Bln(\theta _0)\\ p_0+PDO=A+Bln(2\theta _0)\\ \end{cases}$
$?{B=PDOln(2)A=P0?Bln(θ0)\implies\begin{cases} B=\frac{PDO}{ln(2)}\\ A=P_0-Bln(\theta _0)\\ \end{cases}$

2.3 評分卡的開發(fā)流程

具體可參考建模流程https://blog.csdn.net/weixin_41851055/article/details/106194063

一個好的評分卡，樣本分數平滑且接近正太分布，建模樣本與驗證樣本保持一致
$l o g (o d d s)$ 和評分之間具有線性關系
$PSI=∑i=1nln(建模樣本比例i驗證樣本比例i?(建模樣本比例i?驗證樣本比例i))PSI=\sum_{i=1}^nln(\frac{建模樣本比例i}{驗證樣本比例i}*(建模樣本比例i-驗證樣本比例i))$ 當PSI<0.2樣本穩(wěn)定

3.邏輯回歸對數據的要求（比較嚴格）

輸入數據必須是數值型數據、缺失值必須要填充、數據需要歸一化或者標準化

4.邏輯回歸的優(yōu)缺點

優(yōu)點：

形式簡單、速度快、占用內存小（只需要各維度的特征值）
模型的可解釋性好（假設性檢驗或者直接看各個特征對模型結果的影響）
模型效果不錯（特征工程做的好）
方便輸出結果閾值（閾值設定）

缺點：

容易欠擬合，相比較集成模型準確率不高
對數據要求較高（缺失、數據類型、異常、共線比較敏感）
處理非線性比較麻煩（非線性映射）
很難處理不平衡數據（高維、大量多類特征難以處理）
本身無法篩選特征

5.算法需要注意的點

為什么用極大似然估計作為損失函數
$θj:=θj?α1m∑i=1m(hθ(xi)?yi)xij\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j$ 更新速度只與 $x_i^j和y_i$ 相關，與sigmoid梯度無關，如果用平方損失函數會推導出更新的速度和sigmoid函數本身很相關。sigmoid在它定義域內梯度都不大于0.25，這樣訓練會非常緩慢。

訓練過程中，有很多特征高的相關，會造成怎樣的影響
損失函數最終收斂的情況下，最后不會影響分類效果。但是對于可解釋性會產生很大的影響。（一方面權重分給了不同的特征，另一方面可能正負相互抵消）

為什么在訓練過程中將高度相關的特征去掉
1、讓模型的可解釋性更好。2、大大提高訓練速度。

為什么我們選自然對數作為成本函數（符合上面性質函數很多）
因為預測函數有sigmoid，函數中含有 $e^n$ ，其逆運算剛好是自然對數，最終會推導出形式優(yōu)美模型參數的迭代函數，而不涉及指數或對數運算。

注：

理論與實踐會有所差別，例如在處理樣本不均衡時，評分卡并不是1:1效果最好，需要根據每個場景來實踐
雖然模型比較偏技術，但是在整個流程當中需要業(yè)務的貫穿。無論從單變量的選擇（可解釋性）還是y標簽的制定（vintage）等都需要強有力的業(yè)務解釋

總結

以上是生活随笔為你收集整理的信用评分卡—信贷准入A卡（逻辑回归）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：算法建模流程详解及python代码实现
下一篇：机器学习算法的基础知识