日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

信用评分卡—信贷准入A卡(逻辑回归)

發(fā)布時間:2024/1/23 编程问答 63 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信用评分卡—信贷准入A卡(逻辑回归) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

信貸評分卡

  • 前言
  • 1.邏輯回歸原理
    • 1.1 求解方式
    • 1.2 邏輯回歸為什么用sigmoid并且轉化后的輸出即為1的概率
  • 2.邏輯回歸到評分卡
    • 2.1 woe及IV
    • 2.2 邏輯回歸到評分卡
    • 2.3 評分卡的開發(fā)流程
  • 3.邏輯回歸對數據的要求(比較嚴格)
  • 4.邏輯回歸的優(yōu)缺點
  • 5.算法需要注意的點

前言

在業(yè)界有幾種不同的流派(業(yè)界建立邏輯回歸)

  • 直接用原始變量進行回歸(模型粗糙并不能生成評分卡)
  • 從原始數據生成0/1的虛擬變量(dummy variable)進行回歸(FICO用的較多,已不是主流)
  • 從原始數據生成woe(weight of evidence)進行回歸

1.邏輯回歸原理

1.1 求解方式

預測函數(線性回歸模型上加了sigmoid函數):hθ(x)=11+e?θx其中θx=θ0+θ1x1+θ2x2+...+θnxnh_\theta(x)=\frac{1}{1+e^{-\theta x}} \qquad 其中\(zhòng)theta x=\theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_nhθ?(x)=1+e?θx1?θx=θ0?+θ1?x1?+θ2?x2?+...+θn?xn?
對于二分類:
{p(y=1∣x,θ)=hθ(x)p(y=0∣x,θ)=1?hθ(x)\begin{cases} p(y=1|x,\theta)=h_\theta(x)\\ p(y=0|x,\theta)=1-h_\theta(x)\\ \end{cases}{p(y=1x,θ)=hθ?(x)p(y=0x,θ)=1?hθ?(x)?
將其合并得到:
p(y∣x,θ)=hθ(x)y(1?hθ(x))(1?y)p(y|x,\theta)=h_\theta(x)^y(1-h_\theta(x))^{(1-y)}p(yx,θ)=hθ?(x)y(1?hθ?(x))(1?y)
利用極大似然估計得到(MLE):
L(θ)=∏i=1np(yi∣xi,θ)=∏i=1nhθ(xi)yi(1?hθ(xi))(1?yi)L_{(\theta)}=\prod_{i=1}^np(y_i|x_i,\theta)=\prod_{i=1}^nh_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{(1-y_i)}L(θ)?=i=1n?p(yi?xi?,θ)=i=1n?hθ?(xi?)yi?(1?hθ?(xi?))(1?yi?)
兩邊同時取log:
logL(θ)=∑i=1m[yiloghθ(xi)+(1?yi)log(1?hθ(xi))]logL_{(\theta)}=\sum_{i=1}^m[y_ilogh_\theta(x_i)+(1-y_i)log(1-h_\theta(x_i))]logL(θ)?=i=1m?[yi?loghθ?(xi?)+(1?yi?)log(1?hθ?(xi?))]
對于logL(θ)logL_{(\theta)}logL(θ)?求最優(yōu)解即是求最大值(MLE),為了用梯度下降的算法對logL(θ)logL_{(\theta)}logL(θ)?取負數,即?logL(θ)-logL_{(\theta)}?logL(θ)?最小值也就是logL(θ)logL_{(\theta)}logL(θ)?的最大值:
J(w)=?1mlogL(θ)=?1m∑i=1m[yiloghθ(xi)+(1?yi)log(1?hθ(xi))]J(w)=-\frac{1}{m}logL_{(\theta)}=-\frac{1}{m}\sum_{i=1}^m[y_ilogh_\theta(x_i)+(1-y_i)log(1-h_\theta(x_i))]J(w)=?m1?logL(θ)?=?m1?i=1m?[yi?loghθ?(xi?)+(1?yi?)log(1?hθ?(xi?))]
根據梯度下降的求解可得θj\theta_jθj?的更新方式:
θj:=θj?α1m∑i=1m(hθ(xi)?yi)xij\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^jθj?:=θj??αm1?i=1m?(hθ?(xi?)?yi?)xij?

1.2 邏輯回歸為什么用sigmoid并且轉化后的輸出即為1的概率


邏輯回歸的假設是y服從伯努利分布(E(X)=p,D(X)=p(1-p)),可以得出概率函數:
f(x∣p)=px(1?p)1?x=exp(η?x+ln(1+eη))?η=ln(p1?p)滿足條件1f(x|p)=p^x(1-p)^{1-x}=exp(\eta*x+ln(1+e^\eta))\implies\eta=ln(\frac{p}{1-p})滿足條件1f(xp)=px(1?p)1?x=exp(η?x+ln(1+eη))?η=ln(1?pp?)滿1
η=xβ?(結合η=ln(p1?p))?E(Y)=p=g?1(η)=11+e?η滿足條件2、3\eta=x\beta \implies(結合\eta=ln(\frac{p}{1-p})) \implies E(Y)=p=g^{-1}(\eta)=\frac{1}{1+e^{-\eta}}滿足條件2、3η=xβ?(η=ln(1?pp?))?E(Y)=p=g?1(η)=1+e?η1?滿23
在伯努利分布中E(Y)=p表示的就是1的概率

2.邏輯回歸到評分卡

2.1 woe及IV

woe的計算公式:
WOEi=lnp(yi1)p(yi0)=lnBiBGiG(p(yi1)為i區(qū)間壞樣本占總體壞樣本比例,p(yi0)為i區(qū)間好樣本占總體好樣本比例,越大這個分組壞樣本可能性越大)WOE_i=ln\frac{p(y_{i1})}{p(y_{i0})}=ln\frac{\frac{B_i}{B}}{\frac{G_i}{G}}(p(y_{i1})為i區(qū)間壞樣本占總體壞樣本比例,p(y_{i0})為i區(qū)間好樣本占總體好樣本比例,越大這個分組壞樣本可能性越大)WOEi?=lnp(yi0?)p(yi1?)?=lnGGi??BBi???(p(yi1?)i區(qū)p(yi0?)i區(qū))
IV的計算公式:
IVi=(p(yi1)?p(yi0))?WOEi(WOE的加權求和。IV越大,區(qū)分度越大,價值越大)IV_i=(p(y_{i1})-p(y_{i0}))*WOE_i(WOE的加權求和。IV越大,區(qū)分度越大,價值越大)IVi?=(p(yi1?)?p(yi0?))?WOEi?(WOEIV區(qū))

2.2 邏輯回歸到評分卡

ln(odds)=ln(p1?p)=θ0+θ1x1+θ2x2+...+θnxn(其中x一般是woe編碼后的值,也可以是原始數據,輸出即為1的概率)ln(odds)=ln(\frac{p}{1-p})=\theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n(其中x一般是woe編碼后的值,也可以是原始數據,輸出即為1的概率)ln(odds)=ln(1?pp?)=θ0?+θ1?x1?+θ2?x2?+...+θn?xn?(xwoe1)
以上給的是概率,有時候還需要將概率以分數形式輸出,類似于螞蟻分。具體如下:
Score總=A+B?ln(odds)Score_總=A+B*ln(odds)Score?=A+B?ln(odds)
轉換步驟:
1、設定odds=θ0odds=\theta _0odds=θ0?時的分數P0P_0P0?
2、設定oddsoddsodds每增加一倍時,增加分數為PDOPDOPDO
3、當odds=θ0odds=\theta _0odds=θ0?時的分數P0P_0P0?odds=2θ0odds=2\theta _0odds=2θ0?分數為P0+PDOP_0+PDOP0?+PDO
{p0=A+Bln(θ0)p0+PDO=A+Bln(2θ0)\begin{cases} p_0=A+Bln(\theta _0)\\ p_0+PDO=A+Bln(2\theta _0)\\ \end{cases}{p0?=A+Bln(θ0?)p0?+PDO=A+Bln(2θ0?)?
?{B=PDOln(2)A=P0?Bln(θ0)\implies\begin{cases} B=\frac{PDO}{ln(2)}\\ A=P_0-Bln(\theta _0)\\ \end{cases}?{B=ln(2)PDO?A=P0??Bln(θ0?)?

2.3 評分卡的開發(fā)流程

具體可參考建模流程https://blog.csdn.net/weixin_41851055/article/details/106194063

  • 一個好的評分卡,樣本分數平滑且接近正太分布,建模樣本與驗證樣本保持一致
  • log(odds)log(odds)log(odds)和評分之間具有線性關系
  • PSI=∑i=1nln(建模樣本比例i驗證樣本比例i?(建模樣本比例i?驗證樣本比例i))PSI=\sum_{i=1}^nln(\frac{建模樣本比例i}{驗證樣本比例i}*(建模樣本比例i-驗證樣本比例i))PSI=i=1n?ln(ii??(i?i))當PSI<0.2樣本穩(wěn)定

3.邏輯回歸對數據的要求(比較嚴格)

輸入數據必須是數值型數據缺失值必須要填充、數據需要歸一化或者標準化

4.邏輯回歸的優(yōu)缺點

優(yōu)點:

  • 形式簡單、速度快、占用內存小(只需要各維度的特征值)
  • 模型的可解釋性好(假設性檢驗或者直接看各個特征對模型結果的影響)
  • 模型效果不錯(特征工程做的好)
  • 方便輸出結果閾值(閾值設定)

缺點:

  • 容易欠擬合,相比較集成模型準確率不高
  • 對數據要求較高(缺失、數據類型、異常、共線比較敏感)
  • 處理非線性比較麻煩(非線性映射)
  • 很難處理不平衡數據(高維、大量多類特征難以處理)
  • 本身無法篩選特征

5.算法需要注意的點

為什么用極大似然估計作為損失函數
θj:=θj?α1m∑i=1m(hθ(xi)?yi)xij\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^jθj?:=θj??αm1?i=1m?(hθ?(xi?)?yi?)xij?更新速度只與xij和yix_i^j和y_ixij?yi?相關,與sigmoid梯度無關,如果用平方損失函數會推導出更新的速度和sigmoid函數本身很相關。sigmoid在它定義域內梯度都不大于0.25,這樣訓練會非常緩慢。

訓練過程中,有很多特征高的相關,會造成怎樣的影響
損失函數最終收斂的情況下,最后不會影響分類效果。但是對于可解釋性會產生很大的影響。(一方面權重分給了不同的特征,另一方面可能正負相互抵消)

為什么在訓練過程中將高度相關的特征去掉
1、讓模型的可解釋性更好。2、大大提高訓練速度。

為什么我們選自然對數作為成本函數(符合上面性質函數很多)
因為預測函數有sigmoid,函數中含有ene^nen,其逆運算剛好是自然對數,最終會推導出形式優(yōu)美模型參數的迭代函數,而不涉及指數或對數運算。

注:

  • 理論與實踐會有所差別,例如在處理樣本不均衡時,評分卡并不是1:1效果最好,需要根據每個場景來實踐
  • 雖然模型比較偏技術,但是在整個流程當中需要業(yè)務的貫穿。無論從單變量的選擇(可解釋性)還是y標簽的制定(vintage)等都需要強有力的業(yè)務解釋

總結

以上是生活随笔為你收集整理的信用评分卡—信贷准入A卡(逻辑回归)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。