當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

【分类算法】Logistic算法原理、标准评分卡开发流程、python代码案例

發(fā)布時(shí)間：2025/3/21 python 42 豆豆

生活随笔收集整理的這篇文章主要介紹了【分类算法】Logistic算法原理、标准评分卡开发流程、python代码案例小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

【博客地址】：https://blog.csdn.net/sunyaowu315
【博客大綱地址】：https://blog.csdn.net/sunyaowu315/article/details/82905347

??對(duì)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、金融風(fēng)控等感興趣的小伙伴，需要數(shù)據(jù)集、代碼、行業(yè)報(bào)告等各類(lèi)學(xué)習(xí)資料，可添加微信：wu805686220（記得要備注喔！），也可關(guān)注微信公眾號(hào)：風(fēng)控圏子（別打錯(cuò)字，是圏子，不是圈子，算了直接復(fù)制吧！）

關(guān)注公眾號(hào)后，可聯(lián)系圈子助手加入如下社群：

機(jī)器學(xué)習(xí)風(fēng)控討論群（微信群）
反欺詐討論群（微信群）
python學(xué)習(xí)交流群（微信群）
研習(xí)社資料（qq群：102755159）（干貨、資料、項(xiàng)目、代碼、報(bào)告、課件）

相互學(xué)習(xí)，共同成長(zhǎng)。

問(wèn)題：

Logistic算法的原理是啥啊？
為何用卡方分箱？
為何需要woe編碼呢？
變量bad rate必須滿(mǎn)足單調(diào)性嗎？
為何要檢驗(yàn)變量的正負(fù)性、單調(diào)性、相關(guān)性？
IV值有什么用啊？該怎么判斷呢？
最終標(biāo)準(zhǔn)評(píng)分怎么轉(zhuǎn)換的？為什么要加一個(gè)截距項(xiàng)呢？

文章目錄

一 Logistic算法原理
- 1、基本概念
- 2、算法特點(diǎn)
- 3、算法應(yīng)用
- 4、算法推導(dǎo)
- - 1）Logistic分布
  - 2）二項(xiàng)Logistic回歸模型
  - 3）模型參數(shù)估計(jì)
  - 4）極大似然估計(jì)
二標(biāo)準(zhǔn)評(píng)分卡開(kāi)發(fā)流程
- 1、數(shù)據(jù)獲取
- 2、數(shù)據(jù)處理
- - 1）EDA
  - 2）特征工程
  - 3）分箱
- 3、變量選擇
- - 1）woe編碼
  - 2）IV重要性
  - 3）顯著性、共線(xiàn)性、正負(fù)性、單調(diào)性分析的問(wèn)題
- 4、模型開(kāi)發(fā)
- 5、模型評(píng)估及監(jiān)測(cè)指標(biāo)
三基于Logistic算法的標(biāo)準(zhǔn)評(píng)分卡開(kāi)發(fā)python代碼案例實(shí)操
四總結(jié)

一 Logistic算法原理

1、基本概念

??邏輯斯蒂回歸（logistic regression ）是統(tǒng)計(jì)學(xué)中的經(jīng)典分類(lèi)方法，屬于廣義線(xiàn)性模型（generalizedlinear model）。雖然名字里帶“回歸”，但它實(shí)際上是一種分類(lèi)方法，與多重線(xiàn)性回歸有很多相同之處，最大的區(qū)別就在于它們的因變量取值不同。

??廣義線(xiàn)下模型家族：

若因變量是連續(xù)分布，就是多重線(xiàn)性回歸
若因變量是二項(xiàng)分布，就是Logistic回歸
若因變量是Poisson分布，就是Poisson回歸
若因變量是負(fù)二項(xiàng)分布，就是負(fù)二項(xiàng)回歸

??Logistic是這樣一個(gè)過(guò)程：對(duì)一個(gè)回歸或者分類(lèi)問(wèn)題，建立代價(jià)函數(shù)，通過(guò)優(yōu)化方法迭代求解出這個(gè)函數(shù)的最優(yōu)參數(shù)，然后測(cè)試驗(yàn)證這個(gè)模型的好壞。

2、算法特點(diǎn)

??優(yōu)點(diǎn)：

速度快，適合二分類(lèi)問(wèn)題
易解釋，可以直接看到模型中各個(gè)變量的權(quán)重
易調(diào)整，能容易地更新模型，吸收新的數(shù)據(jù)

??缺點(diǎn)：

對(duì)數(shù)據(jù)和場(chǎng)景的適應(yīng)性有限，精度一般，不如樹(shù)模型、SVM、adaboost等一些其他的常用分類(lèi)模型給力。

3、算法應(yīng)用

??在Logistic回歸模型中，y是一個(gè)定性變量，比如y=0或1，故其主要應(yīng)用于研究某些分類(lèi)事件發(fā)生的概率，如：銀行業(yè)金融借貸場(chǎng)景中預(yù)測(cè)風(fēng)險(xiǎn)客戶(hù)的違約逾期概率；氣象局根據(jù)一些天氣因素判斷是否下雨；醫(yī)療機(jī)構(gòu)根據(jù)病情特征判斷客戶(hù)患病的概率等。

概率預(yù)測(cè)：根據(jù)模型，預(yù)測(cè)事件發(fā)生的概率；
類(lèi)型判別：將事件分類(lèi)。

4、算法推導(dǎo)

1）Logistic分布

??我們首先介紹下Logistic分布(logistic distribution)：

??設(shè)X為連續(xù)隨機(jī)變量，X服從Logistic分布是指X具有下列分布函數(shù)和密度函數(shù)：

??如果所示：

2）二項(xiàng)Logistic回歸模型

??二項(xiàng)Logistic回歸模型(binomial logistic regression model)是一種分類(lèi)模型，由條件概率P(Y|X)表示，形式為參數(shù)化的Logistic分布。這里，X取實(shí)數(shù)，Y取值0或1。

??二項(xiàng)Logistic回歸模型是如下的條件概率分布：

??這里x是輸入，y是輸出，w和b是參數(shù)，w成為權(quán)值向量，b稱(chēng)為偏置，w*x為w和x的內(nèi)積。

??Logistic回歸比較兩個(gè)條件概率的大小，將實(shí)例分到概率值較大的那一類(lèi)。

??當(dāng)輸入向量和權(quán)值向量擴(kuò)充時(shí)，w = (w(1),w(2),…,w(n),b)T,X = (x(1),x(2),…,x(n),1)T,這時(shí)，Logistic回歸模型如下：

??一個(gè)事件的幾率（odds）是指該事件發(fā)生概率與不發(fā)生概率的比值，如果事件發(fā)生的概率為p，不發(fā)生的概率為1-p，那么該事件的odds為p/（1-p），該事件的對(duì)數(shù)幾率log odds 或logit函數(shù)為：

??對(duì)邏輯回歸而言，得：

??注意！注意！pay attention！！！

??也就是說(shuō)，在Logistic回歸模型中，輸出Y=1的對(duì)數(shù)幾率是輸入x的線(xiàn)性函數(shù)，或者說(shuō)，輸出Y=1的對(duì)數(shù)幾率是由輸入x的 線(xiàn)性函數(shù) 表示的模型。

??通過(guò)Logistic回歸模型定義式可以將線(xiàn)性函數(shù)w*x轉(zhuǎn)換為概率：

??這時(shí)，線(xiàn)性函數(shù)的值越接近正無(wú)窮，概率值越接近1；線(xiàn)性函數(shù)的值越接近負(fù)無(wú)窮，概率值越接近0。這樣的模型，就是Logistic回歸模型。

3）模型參數(shù)估計(jì)

??Logistic回歸模型學(xué)習(xí)時(shí)，對(duì)于給定的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)},可以應(yīng)用極大似然估計(jì)模型參數(shù)，從而得到完整的Logistic回歸模型。

??設(shè)：

??似然函數(shù)為：

??對(duì)數(shù)似然函數(shù)為：

??對(duì)L（w）求極大值，得到w的估計(jì)值。

??注意！注意！pay attention！！！

??這樣，求參問(wèn)題，就變?yōu)榱艘詫?duì)數(shù)似然函數(shù)為目標(biāo)函數(shù)的求參問(wèn)題，Logistic回歸學(xué)習(xí)中通常采用的方法是梯度下降法及擬牛頓法。
??假設(shè)w的極大似然估計(jì)值是w，那么學(xué)到的Logistic回歸模型為：

4）極大似然估計(jì)

??（待續(xù)！）

二標(biāo)準(zhǔn)評(píng)分卡開(kāi)發(fā)流程

1、數(shù)據(jù)獲取

??準(zhǔn)備數(shù)據(jù)源，如：

2、數(shù)據(jù)處理

1）EDA

??對(duì)數(shù)據(jù)做描述性分析和探索性分析，發(fā)現(xiàn)變量的基本屬性。

2）特征工程

??此處特征工程，特征特征處理，如缺失值、異常值、錯(cuò)誤值、離群值等處理。

??對(duì)字段特征做處理，具體處理方式，請(qǐng)移步特征工程篇：【特征工程】嘔心之作——深度了解特征工程

3）分箱

概念：
1.將連續(xù)變量離散化
2.將多狀態(tài)的離散變量合并成少狀態(tài)
目的：
從模型效果上來(lái)看，特征分箱主要是為了降低變量的復(fù)雜性，減少變量噪音對(duì)模型的影響，提高自變量和因變量的相關(guān)度。從而使模型更加穩(wěn)定。
注意事項(xiàng)：
分箱就是為了做到同組之間的差異盡可能的小，不同組之間的差異盡可能的大。
分箱方法：
等距、等頻、卡方分箱、決策樹(shù)分箱法
分箱原則:
（1）最小分箱占比不低于5%
（2）箱內(nèi)不能全部是好客戶(hù)
（3）連續(xù)箱單調(diào)

3、變量選擇

1）woe編碼

概念：
由于制作評(píng)分卡的某些需要，通常會(huì)在建立評(píng)分模型時(shí)將自變量（連續(xù)+離散都可以）做離散化處理（等寬切割，等高切割，或者利用決策樹(shù)來(lái)切割），但是模型本身沒(méi)辦法很好地直接接受分類(lèi)自變量的輸入。所以信用評(píng)分卡中常用的WOE轉(zhuǎn)換。
目的：
提升模型的預(yù)測(cè)效果，提高模型的可理解性。
公式：
WOE的公式就是：WOE=ln(好客戶(hù)占比/壞客戶(hù)占比)*100%=優(yōu)勢(shì)比
好客戶(hù)占比=數(shù)量（x︱y=好）/總?cè)藬?shù)

2）IV重要性

概念：
??IV的全稱(chēng)是Information Value，中文意思是信息價(jià)值，或者信息量。
??在用邏輯回歸、決策樹(shù)等模型方法構(gòu)建分類(lèi)模型時(shí)，經(jīng)常需要對(duì)自變量進(jìn)行篩選。通常情況下，不會(huì)直接把所有變量直接放到模型中去進(jìn)行擬合訓(xùn)練，而是會(huì)用一些方法。
??挑選入模變量過(guò)程是個(gè)比較復(fù)雜的過(guò)程，需要考慮的因素很多，比如：變量的預(yù)測(cè)能力，變量之間的相關(guān)性，變量的簡(jiǎn)單性（容易生成和使用），變量的強(qiáng)壯性（不容易被繞過(guò)），變量在業(yè)務(wù)上的可解釋性（被挑戰(zhàn)時(shí)可以解釋的通）等等。但是，其中最主要和最直接的衡量標(biāo)準(zhǔn)是變量的預(yù)測(cè)能力。
??“變量的預(yù)測(cè)能力”這個(gè)說(shuō)法很籠統(tǒng)，很主觀(guān)，非量化，而我們需要一些具體的量化指標(biāo)來(lái)衡量每自變量的預(yù)測(cè)能力，并根據(jù)這些量化指標(biāo)的大小，來(lái)確定入模變量。IV就是這樣一種指標(biāo)，他可以用來(lái)衡量自變量的預(yù)測(cè)能力。類(lèi)似的指標(biāo)還有信息增益、基尼系數(shù)等等。
公式：
標(biāo)準(zhǔn)：
??iv值一般取0.1-0.5，但iv值并不是越高越好，當(dāng)高于0.5時(shí)就很可疑，因?yàn)樗^(guò)于好而顯得不真實(shí)。但是也有些風(fēng)控團(tuán)隊(duì)也將大于0.5的納入模型，但是在學(xué)術(shù)界一般取值0.1-0.3

3）顯著性、共線(xiàn)性、正負(fù)性、單調(diào)性分析的問(wèn)題

??在變量初步選擇完成后，我們還需要檢查變量的可用性。通常要考慮的就是變量的顯著性、共線(xiàn)性、正負(fù)性、單調(diào)性問(wèn)題。

??注意！注意！pay attention！！！

??顯著性水平，P-value，用于檢驗(yàn)變量的有效性，通常取值為0.05以?xún)?nèi)。但在實(shí)際應(yīng)用中，設(shè)為0.1，有可能比0.05更好，0.1的顯著性水平就夠了，90％相比95％的置信區(qū)間，其估計(jì)的誤差范圍要更小，也就是說(shuō)犧牲估計(jì)的把握度可以換來(lái)估計(jì)的精確度。

??共線(xiàn)性不比解釋，共線(xiàn)性明顯容易導(dǎo)致過(guò)擬合。

??單調(diào)性和正負(fù)性呢？我們記得在Logistic回歸模型中，輸出Y=1的對(duì)數(shù)幾率是輸入x的線(xiàn)性函數(shù)，又因?yàn)榧热皇蔷€(xiàn)性函數(shù)，w內(nèi)積向量的取值就需要正負(fù)一致呀；既然要保持線(xiàn)性，變量bad rate 就要保持單調(diào)一致呀。這樣就不容易增加模型的復(fù)雜性，更易于解釋。

??我們看圖說(shuō)話(huà)：

??這樣，是否就立即明白了這個(gè)算法的簡(jiǎn)單性，線(xiàn)性加權(quán)的原理，一些困惑是不是就迎刃而解啦！

4、模型開(kāi)發(fā)

??可使用R、python、matlab等語(yǔ)言，自己編寫(xiě)函數(shù)，或直接調(diào)用相對(duì)應(yīng)的函數(shù)，進(jìn)行樣本拆分、模型訓(xùn)練、交叉驗(yàn)證等騷操作。具體流程，我們移步代碼區(qū)，盤(pán)一遍就懂。

5、模型評(píng)估及監(jiān)測(cè)指標(biāo)

??風(fēng)控模型評(píng)價(jià)指標(biāo)總結(jié)

三基于Logistic算法的標(biāo)準(zhǔn)評(píng)分卡開(kāi)發(fā)python代碼案例實(shí)操

??logistic算法構(gòu)建標(biāo)準(zhǔn)評(píng)分卡python代碼實(shí)例

四總結(jié)

??logistic模型，是數(shù)據(jù)分析、建模人員的入門(mén)操作，正因其通用性、可調(diào)整和易解釋性，才普遍為銀行業(yè)、互聯(lián)網(wǎng)金融行業(yè)業(yè)務(wù)所用。總結(jié)一句話(huà)：全民兼可盤(pán)！

??對(duì)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、金融風(fēng)控等感興趣的小伙伴，需要數(shù)據(jù)集、代碼、行業(yè)報(bào)告等各類(lèi)學(xué)習(xí)資料，可添加qq群（資料共享群）：102755159，也可添加微信wu805686220，加入微信討論群，相互學(xué)習(xí)，共同成長(zhǎng)。

??風(fēng)里雨里，只要你騷，我就敢皮。

總結(jié)

以上是生活随笔為你收集整理的【分类算法】Logistic算法原理、标准评分卡开发流程、python代码案例的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【复杂网络】图模型在欺诈检测应用一点看法
下一篇：【数据处理】python数据清洗通用手法