當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第五章逻辑回归模型在评分卡开发中的应用

發(fā)布時間：2025/4/5 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了第五章逻辑回归模型在评分卡开发中的应用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

邏輯回歸模型在評分卡開發(fā)中的應(yīng)用

課程簡介：在分類場景中，邏輯回歸模型是常用的一類算法。它具有結(jié)構(gòu)簡單、可解釋性強(qiáng)、輸出結(jié)果是"軟分類"的特點(diǎn)。評分模型多采用這類算法。同時邏輯回歸模型也面臨一些限制，因此在特征工程階段我們對輸入特征做了相應(yīng)的調(diào)整和約束。

目錄：

邏輯回歸模型的基本概念
基于邏輯回歸模型的評分卡構(gòu)建工作
尺度化

1. 邏輯回歸模型的基本概念

伯努利概型

在分類模型中，目標(biāo)變量是離散、無序型的變量。例如，違約預(yù)測模型中的目標(biāo)變量(也稱為標(biāo)簽)是{違約，非違約}。線性回歸模型無法對這類標(biāo)簽進(jìn)行建模，因為線性回歸模型的結(jié)果的取值空間是整個實數(shù)空間.對于分類模型而言，我們建模的對象是每個類別在某條樣本上出現(xiàn)的概率。

伯努利概型

某個事件有"發(fā)生"與"不發(fā)生"兩種互斥的狀態(tài)。假設(shè)該事件發(fā)生的概率為,不發(fā)生的概率即為.我們用1和0表示事件的發(fā)生與不發(fā)生，則有：

可以統(tǒng)一成

邏輯回歸模型與logistic變換

在違約預(yù)測場景中，單個個體的違約事件可以看成伯努利概型：

參數(shù)即是我們需要預(yù)測的目標(biāo)。

如果對概率做擬合？

概率的取值范圍是0~1.如前所述，線性回歸的目標(biāo)變量的取值空間是整個實數(shù)空間，因此不適合用線性回歸模型做預(yù)測。引入下面的logistic變換(也稱為sigmoid函數(shù))，能夠是的擬合的目標(biāo)函數(shù)的取值范圍限定在0~1：

邏輯回歸模型與logistic變換(續(xù))

的特點(diǎn)

單調(diào)性，即>
有界性，即
可導(dǎo)性，即

除此之外，還有一個計算上的優(yōu)勢，即

邏輯回歸模型與logistic變換(續(xù))

由于logistic變換有上述種種優(yōu)點(diǎn)，我們將該變換應(yīng)用在概率的刻畫當(dāng)中：

其中分別表示第i個觀測值上p個特征的取值和特征的權(quán)重。

于是整個邏輯回歸模型的形式為：

需要注意的是，這里的回歸模型是對違約概率做回歸，而非對違約結(jié)果{0，1}做回歸。

參數(shù)估計

通常用極大似然估計法(MLE)求出邏輯回歸的參數(shù)

對于樣本，邏輯回歸模型的似然函和對數(shù)似然函數(shù)分別為

參數(shù)估計的結(jié)果是為了讓似然函數(shù)最大化。由于對數(shù)似然函數(shù)與似然函數(shù)單調(diào)上升且具有更緊湊的形式，同時也易于求導(dǎo)運(yùn)算，因此將似然函數(shù)最大化轉(zhuǎn)化為對數(shù)似然函數(shù)最大化，即

對求偏導(dǎo)，結(jié)果是

顯然，的方程是沒有解析解的。

無法得到解析解的情況下，只能通過數(shù)值求解的方式來計算參數(shù)的估計。常用梯度上升法來迭代地計算。基本的算法步驟如下：

初設(shè)化參數(shù)和步長

計算當(dāng)前梯度：

更新參數(shù)：

直至滿足終止條件

注：

根據(jù)計算梯度使用的樣本量的多少，梯度上升法分為批量梯度上升法、隨機(jī)梯度上升法與小批量梯度上升法。

邏輯回歸模型的優(yōu)點(diǎn)

結(jié)構(gòu)簡單：

變量之間的關(guān)系是線性可加關(guān)系

可解釋性高：

結(jié)構(gòu)簡單；輸入變量對目標(biāo)變量的影響是容易獲得的

支持增量訓(xùn)練：

無需讀入全部數(shù)據(jù)，可增量式地讀取數(shù)據(jù)、訓(xùn)練模型

給出概率而非判別類別：

模型的結(jié)果是估計出屬于某一類的概率，可用于更加復(fù)雜的決策

工程化相對容易：

模型的測試、部署、監(jiān)控、調(diào)優(yōu)等工作相對簡單

邏輯回歸模型的不足

預(yù)測精度一般

由于模型結(jié)構(gòu)較為簡單，導(dǎo)致預(yù)測精度不如其他模型

對變量要求高

輸入變量需數(shù)值類型，需要對非數(shù)值變量進(jìn)行編碼
不能容忍缺失值，需要對缺失值做處理
對異常值敏感，需要對異常值做處理
變量尺度差異較大時，容易對模型有影響，需要做變量歸一化
變量間的線性相關(guān)性對模型有影響，需要做變量挑選或加上正則項

2.基于LR模型的評分卡構(gòu)建工作

邏輯回歸模型對變量的要求

當(dāng)用邏輯回歸模型來構(gòu)建評分卡時，入模變量需要滿足以下條件

變量間不存在較強(qiáng)的線性相關(guān)性和多重共線性

變量具有顯著性

變量具有合理的業(yè)務(wù)含義，即變量對于風(fēng)控業(yè)務(wù)是正確的

其中，第1點(diǎn)已經(jīng)在單變量分析與多變量分析中得到一定的約束，但是未必充分。

關(guān)于第2點(diǎn)，需要從系數(shù)的p值進(jìn)行檢驗

關(guān)于第3點(diǎn)，需要從系數(shù)的符號進(jìn)行檢驗

變量顯著性

為了獲取與目標(biāo)變量(即違約標(biāo)簽)有較高相關(guān)性的變量，我們要求最終入模的變量的系數(shù)的p值很小，例如低于0.1。如果發(fā)現(xiàn)模型中某些變量不顯著，需要檢驗一下兩種可能性：

該變量本身不顯著

該變量顯著，但是由于有一定的線性相關(guān)性或者多重共線性，導(dǎo)致該變量在多元回歸下不顯著

先檢驗1的可能性，如果排除，再檢驗2.

檢驗1的方法：

將該變量單獨(dú)與目標(biāo)變量做邏輯回歸模型，如果在單變量回歸的情況下系數(shù)的p值仍然較高，即表明該變量本身的顯著性很低。

注：

對于IV較高的變量，1的可能性較低。

變量正確性

在WOE的計算公式中，

當(dāng)WOE為負(fù)時，表明當(dāng)前箱的"危險性"高于平均樣本的"危險性"，出現(xiàn)壞樣本的概率更高。因此在邏輯回歸模型中，所有變量對應(yīng)的系數(shù)應(yīng)該為負(fù)。

反之，如果采取的WOE的計算公式為：

同理，所有變量對應(yīng)的系數(shù)應(yīng)該為正。

邏輯回歸模型對變量的要求(續(xù))

特征選擇

從上述的單變量回歸中可以發(fā)現(xiàn)，在full regression中，不顯著、不正確的變量是由于線性相關(guān)性引起的。因此需要在做一次變量挑選。變量挑選的目的是為了滿足：

入模變量正確并且顯著

入模變量的"重要性"是最高的

其中，我們可以用IV來衡量入模變量的重要性。

綜上，變量挑選的步驟如下：

將變量根據(jù)IV進(jìn)行降序排列，不妨設(shè)為,其中""代表重要性的次序

當(dāng)前的入模變量集合為{}

從剩余的變量中挑選第一個變量放入上一步的集合中，建立回歸模型。如果該模型的所有的變量都滿足p值小于閾值、系數(shù)為負(fù)，則在入模變量集合中保留該變量，否則剔除

遍歷所有變量

尺度化

得到符合要求的邏輯回歸模型后，通常還需要將概率轉(zhuǎn)化成分?jǐn)?shù)。分?jǐn)?shù)的單調(diào)性與概率相反，即分?jǐn)?shù)越高表明違約的概率越低，信用資質(zhì)越好。在評分卡模型中，上述過程稱為"尺度化"，轉(zhuǎn)換公式為：

其中，, : point to double odds

PDO的作用

假設(shè)當(dāng)前的好壞比為, 對應(yīng)的分?jǐn)?shù)為.

當(dāng)好壞比上升一倍時變?yōu)?, 即=y-ln2, 此時分?jǐn)?shù)變?yōu)?

因此，PDO的含義即為，當(dāng)好壞比上升1倍時，分?jǐn)?shù)上升PDO個單位。

Base Point的選擇

要滿足所有的評分的取值為正。

總結(jié)

以上是生活随笔為你收集整理的第五章逻辑回归模型在评分卡开发中的应用的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

编程问答

第五章 逻辑回归模型在评分卡开发中的应用

邏輯回歸模型在評分卡開發(fā)中的應(yīng)用

總結(jié)

第五章逻辑回归模型在评分卡开发中的应用