日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第五章 逻辑回归模型在评分卡开发中的应用

發(fā)布時間:2025/4/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第五章 逻辑回归模型在评分卡开发中的应用 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

邏輯回歸模型在評分卡開發(fā)中的應(yīng)用

課程簡介:在分類場景中,邏輯回歸模型是常用的一類算法。它具有結(jié)構(gòu)簡單、可解釋性強(qiáng)、輸出結(jié)果是"軟分類"的特點(diǎn)。評分模型多采用這類算法。同時邏輯回歸模型也面臨一些限制,因此在特征工程階段我們對輸入特征做了相應(yīng)的調(diào)整和約束。

目錄:

  • 邏輯回歸模型的基本概念
  • 基于邏輯回歸模型的評分卡構(gòu)建工作
  • 尺度化

1. 邏輯回歸模型的基本概念

  • 伯努利概型

在分類模型中,目標(biāo)變量是離散、無序型的變量。例如,違約預(yù)測模型中的目標(biāo)變量(也稱為標(biāo)簽)是{違約,非違約}。線性回歸模型無法對這類標(biāo)簽進(jìn)行建模,因為線性回歸模型的結(jié)果的取值空間是整個實數(shù)空間.對于分類模型而言,我們建模的對象是每個類別在某條樣本上出現(xiàn)的概率。

伯努利概型

某個事件有"發(fā)生"與"不發(fā)生"兩種互斥的狀態(tài)。假設(shè)該事件發(fā)生的概率為,不發(fā)生的概率即為.我們用1和0表示事件的發(fā)生與不發(fā)生,則有:

可以統(tǒng)一成

邏輯回歸模型與logistic變換

在違約預(yù)測場景中,單個個體的違約事件可以看成伯努利概型:

參數(shù)即是我們需要預(yù)測的目標(biāo)。

如果對概率做擬合?

概率的取值范圍是0~1.如前所述,線性回歸的目標(biāo)變量的取值空間是整個實數(shù)空間,因此不適合用線性回歸模型做預(yù)測。引入下面的logistic變換(也稱為sigmoid函數(shù)),能夠是的擬合的目標(biāo)函數(shù)的取值范圍限定在0~1:

邏輯回歸模型與logistic變換(續(xù))

的特點(diǎn)

  • 單調(diào)性,即>
  • 有界性,即
  • 可導(dǎo)性,即

除此之外,還有一個計算上的優(yōu)勢,即

  • 邏輯回歸模型與logistic變換(續(xù))

由于logistic變換有上述種種優(yōu)點(diǎn),我們將該變換應(yīng)用在概率的刻畫當(dāng)中:

其中分別表示第i個觀測值上p個特征的取值和特征的權(quán)重。

于是整個邏輯回歸模型的形式為:

需要注意的是,這里的回歸模型是對違約概率做回歸,而非對違約結(jié)果{0,1}做回歸。

  • 參數(shù)估計

通常用極大似然估計法(MLE)求出邏輯回歸的參數(shù)

對于樣本,邏輯回歸模型的似然函和對數(shù)似然函數(shù)分別為

參數(shù)估計的結(jié)果是為了讓似然函數(shù)最大化。由于對數(shù)似然函數(shù)與似然函數(shù)單調(diào)上升且具有更緊湊的形式,同時也易于求導(dǎo)運(yùn)算,因此將似然函數(shù)最大化轉(zhuǎn)化為對數(shù)似然函數(shù)最大化,即

對求偏導(dǎo),結(jié)果是

顯然,的方程是沒有解析解的。

無法得到解析解的情況下,只能通過數(shù)值求解的方式來計算參數(shù)的估計。常用梯度上升法來迭代地計算。基本的算法步驟如下:

  • 初設(shè)化參數(shù)和步長
  • 計算當(dāng)前梯度:
  • 更新參數(shù):
  • 直至滿足終止條件
  • 注:

    根據(jù)計算梯度使用的樣本量的多少,梯度上升法分為批量梯度上升法、隨機(jī)梯度上升法與小批量梯度上升法。

    • 邏輯回歸模型的優(yōu)點(diǎn)

    結(jié)構(gòu)簡單:

    • 變量之間的關(guān)系是線性可加關(guān)系

    可解釋性高:

    • 結(jié)構(gòu)簡單;輸入變量對目標(biāo)變量的影響是容易獲得的

    支持增量訓(xùn)練:

    • 無需讀入全部數(shù)據(jù),可增量式地讀取數(shù)據(jù)、訓(xùn)練模型

    給出概率而非判別類別:

    • 模型的結(jié)果是估計出屬于某一類的概率,可用于更加復(fù)雜的決策

    工程化相對容易:

    • 模型的測試、部署、監(jiān)控、調(diào)優(yōu)等工作相對簡單

    邏輯回歸模型的不足

    預(yù)測精度一般

    • 由于模型結(jié)構(gòu)較為簡單,導(dǎo)致預(yù)測精度不如其他模型

    對變量要求高

    • 輸入變量需數(shù)值類型,需要對非數(shù)值變量進(jìn)行編碼
    • 不能容忍缺失值,需要對缺失值做處理
    • 對異常值敏感,需要對異常值做處理
    • 變量尺度差異較大時,容易對模型有影響,需要做變量歸一化
    • 變量間的線性相關(guān)性對模型有影響,需要做變量挑選或加上正則項

    2.基于LR模型的評分卡構(gòu)建工作

    邏輯回歸模型對變量的要求

    當(dāng)用邏輯回歸模型來構(gòu)建評分卡時,入模變量需要滿足以下條件

  • 變量間不存在較強(qiáng)的線性相關(guān)性和多重共線性
  • 變量具有顯著性
  • 變量具有合理的業(yè)務(wù)含義,即變量對于風(fēng)控業(yè)務(wù)是正確的
  • 其中,第1點(diǎn)已經(jīng)在單變量分析與多變量分析中得到一定的約束,但是未必充分。

    關(guān)于第2點(diǎn),需要從系數(shù)的p值進(jìn)行檢驗

    關(guān)于第3點(diǎn),需要從系數(shù)的符號進(jìn)行檢驗

    • 變量顯著性

    為了獲取與目標(biāo)變量(即違約標(biāo)簽)有較高相關(guān)性的變量,我們要求最終入模的變量的系數(shù)的p值很小,例如低于0.1。如果發(fā)現(xiàn)模型中某些變量不顯著,需要檢驗一下兩種可能性:

  • 該變量本身不顯著
  • 該變量顯著,但是由于有一定的線性相關(guān)性或者多重共線性,導(dǎo)致該變量在多元回歸下不顯著
  • 先檢驗1的可能性,如果排除,再檢驗2.

    檢驗1的方法:

    將該變量單獨(dú)與目標(biāo)變量做邏輯回歸模型,如果在單變量回歸的情況下系數(shù)的p值仍然較高,即表明該變量本身的顯著性很低。

    注:

    對于IV較高的變量,1的可能性較低。

    • 變量正確性

    在WOE的計算公式中,

    當(dāng)WOE為負(fù)時,表明當(dāng)前箱的"危險性"高于平均樣本的"危險性",出現(xiàn)壞樣本的概率更高。因此在邏輯回歸模型中,所有變量對應(yīng)的系數(shù)應(yīng)該為負(fù)。

    反之,如果采取的WOE的計算公式為:

    同理,所有變量對應(yīng)的系數(shù)應(yīng)該為正。

    • 邏輯回歸模型對變量的要求(續(xù))

    • 特征選擇

    從上述的單變量回歸中可以發(fā)現(xiàn),在full regression中,不顯著、不正確的變量是由于線性相關(guān)性引起的。因此需要在做一次變量挑選。變量挑選的目的是為了滿足:

  • 入模變量正確并且顯著
  • 入模變量的"重要性"是最高的
  • 其中,我們可以用IV來衡量入模變量的重要性。

    綜上,變量挑選的步驟如下:

  • 將變量根據(jù)IV進(jìn)行降序排列,不妨設(shè)為,其中""代表重要性的次序
  • 當(dāng)前的入模變量集合為{}
  • 從剩余的變量中挑選第一個變量放入上一步的集合中,建立回歸模型。如果該模型的所有的變量都滿足p值小于閾值、系數(shù)為負(fù),則在入模變量集合中保留該變量,否則剔除
  • 遍歷所有變量
    • 尺度化

    得到符合要求的邏輯回歸模型后,通常還需要將概率轉(zhuǎn)化成分?jǐn)?shù)。分?jǐn)?shù)的單調(diào)性與概率相反,即分?jǐn)?shù)越高表明違約的概率越低,信用資質(zhì)越好。在評分卡模型中,上述過程稱為"尺度化",轉(zhuǎn)換公式為:

    其中,, : point to double odds

    PDO的作用

    假設(shè)當(dāng)前的好壞比為, 對應(yīng)的分?jǐn)?shù)為.

    當(dāng)好壞比上升一倍時變?yōu)?, 即=y-ln2, 此時分?jǐn)?shù)變?yōu)?

    因此,PDO的含義即為,當(dāng)好壞比上升1倍時,分?jǐn)?shù)上升PDO個單位。

    Base Point的選擇

    要滿足所有的評分的取值為正。

    總結(jié)

    以上是生活随笔為你收集整理的第五章 逻辑回归模型在评分卡开发中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。