第五章 逻辑回归模型在评分卡开发中的应用
邏輯回歸模型在評分卡開發(fā)中的應(yīng)用
課程簡介:在分類場景中,邏輯回歸模型是常用的一類算法。它具有結(jié)構(gòu)簡單、可解釋性強(qiáng)、輸出結(jié)果是"軟分類"的特點(diǎn)。評分模型多采用這類算法。同時邏輯回歸模型也面臨一些限制,因此在特征工程階段我們對輸入特征做了相應(yīng)的調(diào)整和約束。
目錄:
- 邏輯回歸模型的基本概念
- 基于邏輯回歸模型的評分卡構(gòu)建工作
- 尺度化
1. 邏輯回歸模型的基本概念
- 伯努利概型
在分類模型中,目標(biāo)變量是離散、無序型的變量。例如,違約預(yù)測模型中的目標(biāo)變量(也稱為標(biāo)簽)是{違約,非違約}。線性回歸模型無法對這類標(biāo)簽進(jìn)行建模,因為線性回歸模型的結(jié)果的取值空間是整個實數(shù)空間.對于分類模型而言,我們建模的對象是每個類別在某條樣本上出現(xiàn)的概率。
伯努利概型
某個事件有"發(fā)生"與"不發(fā)生"兩種互斥的狀態(tài)。假設(shè)該事件發(fā)生的概率為,不發(fā)生的概率即為.我們用1和0表示事件的發(fā)生與不發(fā)生,則有:
可以統(tǒng)一成
邏輯回歸模型與logistic變換
在違約預(yù)測場景中,單個個體的違約事件可以看成伯努利概型:
參數(shù)即是我們需要預(yù)測的目標(biāo)。
如果對概率做擬合?
概率的取值范圍是0~1.如前所述,線性回歸的目標(biāo)變量的取值空間是整個實數(shù)空間,因此不適合用線性回歸模型做預(yù)測。引入下面的logistic變換(也稱為sigmoid函數(shù)),能夠是的擬合的目標(biāo)函數(shù)的取值范圍限定在0~1:
邏輯回歸模型與logistic變換(續(xù))
的特點(diǎn)
- 單調(diào)性,即>
- 有界性,即
- 可導(dǎo)性,即
除此之外,還有一個計算上的優(yōu)勢,即
- 邏輯回歸模型與logistic變換(續(xù))
由于logistic變換有上述種種優(yōu)點(diǎn),我們將該變換應(yīng)用在概率的刻畫當(dāng)中:
其中分別表示第i個觀測值上p個特征的取值和特征的權(quán)重。
于是整個邏輯回歸模型的形式為:
需要注意的是,這里的回歸模型是對違約概率做回歸,而非對違約結(jié)果{0,1}做回歸。
- 參數(shù)估計
通常用極大似然估計法(MLE)求出邏輯回歸的參數(shù)
對于樣本,邏輯回歸模型的似然函和對數(shù)似然函數(shù)分別為
參數(shù)估計的結(jié)果是為了讓似然函數(shù)最大化。由于對數(shù)似然函數(shù)與似然函數(shù)單調(diào)上升且具有更緊湊的形式,同時也易于求導(dǎo)運(yùn)算,因此將似然函數(shù)最大化轉(zhuǎn)化為對數(shù)似然函數(shù)最大化,即
對求偏導(dǎo),結(jié)果是
顯然,的方程是沒有解析解的。
無法得到解析解的情況下,只能通過數(shù)值求解的方式來計算參數(shù)的估計。常用梯度上升法來迭代地計算。基本的算法步驟如下:
注:
根據(jù)計算梯度使用的樣本量的多少,梯度上升法分為批量梯度上升法、隨機(jī)梯度上升法與小批量梯度上升法。
- 邏輯回歸模型的優(yōu)點(diǎn)
結(jié)構(gòu)簡單:
- 變量之間的關(guān)系是線性可加關(guān)系
可解釋性高:
- 結(jié)構(gòu)簡單;輸入變量對目標(biāo)變量的影響是容易獲得的
支持增量訓(xùn)練:
- 無需讀入全部數(shù)據(jù),可增量式地讀取數(shù)據(jù)、訓(xùn)練模型
給出概率而非判別類別:
- 模型的結(jié)果是估計出屬于某一類的概率,可用于更加復(fù)雜的決策
工程化相對容易:
- 模型的測試、部署、監(jiān)控、調(diào)優(yōu)等工作相對簡單
邏輯回歸模型的不足
預(yù)測精度一般
- 由于模型結(jié)構(gòu)較為簡單,導(dǎo)致預(yù)測精度不如其他模型
對變量要求高
- 輸入變量需數(shù)值類型,需要對非數(shù)值變量進(jìn)行編碼
- 不能容忍缺失值,需要對缺失值做處理
- 對異常值敏感,需要對異常值做處理
- 變量尺度差異較大時,容易對模型有影響,需要做變量歸一化
- 變量間的線性相關(guān)性對模型有影響,需要做變量挑選或加上正則項
2.基于LR模型的評分卡構(gòu)建工作
邏輯回歸模型對變量的要求
當(dāng)用邏輯回歸模型來構(gòu)建評分卡時,入模變量需要滿足以下條件
其中,第1點(diǎn)已經(jīng)在單變量分析與多變量分析中得到一定的約束,但是未必充分。
關(guān)于第2點(diǎn),需要從系數(shù)的p值進(jìn)行檢驗
關(guān)于第3點(diǎn),需要從系數(shù)的符號進(jìn)行檢驗
- 變量顯著性
為了獲取與目標(biāo)變量(即違約標(biāo)簽)有較高相關(guān)性的變量,我們要求最終入模的變量的系數(shù)的p值很小,例如低于0.1。如果發(fā)現(xiàn)模型中某些變量不顯著,需要檢驗一下兩種可能性:
先檢驗1的可能性,如果排除,再檢驗2.
檢驗1的方法:
將該變量單獨(dú)與目標(biāo)變量做邏輯回歸模型,如果在單變量回歸的情況下系數(shù)的p值仍然較高,即表明該變量本身的顯著性很低。
注:
對于IV較高的變量,1的可能性較低。
- 變量正確性
在WOE的計算公式中,
當(dāng)WOE為負(fù)時,表明當(dāng)前箱的"危險性"高于平均樣本的"危險性",出現(xiàn)壞樣本的概率更高。因此在邏輯回歸模型中,所有變量對應(yīng)的系數(shù)應(yīng)該為負(fù)。
反之,如果采取的WOE的計算公式為:
同理,所有變量對應(yīng)的系數(shù)應(yīng)該為正。
- 邏輯回歸模型對變量的要求(續(xù))
- 特征選擇
從上述的單變量回歸中可以發(fā)現(xiàn),在full regression中,不顯著、不正確的變量是由于線性相關(guān)性引起的。因此需要在做一次變量挑選。變量挑選的目的是為了滿足:
其中,我們可以用IV來衡量入模變量的重要性。
綜上,變量挑選的步驟如下:
- 尺度化
得到符合要求的邏輯回歸模型后,通常還需要將概率轉(zhuǎn)化成分?jǐn)?shù)。分?jǐn)?shù)的單調(diào)性與概率相反,即分?jǐn)?shù)越高表明違約的概率越低,信用資質(zhì)越好。在評分卡模型中,上述過程稱為"尺度化",轉(zhuǎn)換公式為:
其中,, : point to double odds
PDO的作用
假設(shè)當(dāng)前的好壞比為, 對應(yīng)的分?jǐn)?shù)為.
當(dāng)好壞比上升一倍時變?yōu)?, 即=y-ln2, 此時分?jǐn)?shù)變?yōu)?
因此,PDO的含義即為,當(dāng)好壞比上升1倍時,分?jǐn)?shù)上升PDO個單位。
Base Point的選擇
要滿足所有的評分的取值為正。
總結(jié)
以上是生活随笔為你收集整理的第五章 逻辑回归模型在评分卡开发中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第12章 决策树
- 下一篇: 第六章 模型的验证、监控与调优