當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第四章数据的预处理与特征构建(续)

發(fā)布時(shí)間：2025/4/5 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了第四章数据的预处理与特征构建(续) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

申請?jiān)u分卡模型

數(shù)據(jù)的預(yù)處理與特征構(gòu)建(續(xù))

課程簡介：邏輯回歸模型的特征需要是數(shù)值型，因此類別型變量不能直接放入模型中去，需要對其進(jìn)行編碼。此外，為了獲取評分模型的穩(wěn)定性，建模時(shí)需要對數(shù)值型特征做分箱的處理。最終在帶入模型之前，我們還需要對特征做單變量與多變量分析的工作。

目錄：

特征的分箱
WOE與特征信息值
單變量分析與多變量分析

特征的分箱

分箱的概念

在評分卡模型開發(fā)中，變量需要進(jìn)行分箱操作才能放入模型當(dāng)中。分箱操作的定義如下：

對于數(shù)值型變量，將其分為若干有限的幾個分段。例如，將收入分為<5K, 5K~10K, 10k~20k, >20k等
對于類別型變量，如果取值個數(shù)很多，將其合并為個數(shù)較少的幾個分段。例如，將省份分為{北，上，廣}，{蘇，浙，皖}，{黑，吉，遼}，{閩，粵，湘}，其他。

評分卡模型引入變量分箱操作的原因

評分結(jié)果需要有一定的穩(wěn)定性。例如，當(dāng)借款人的總體信用資質(zhì)不變時(shí)，評分結(jié)果也應(yīng)保持穩(wěn)定。某些變量(如收入)的一點(diǎn)波動，不應(yīng)該影響評分結(jié)果。例如，當(dāng)收入按照上述劃分時(shí)，即使月收入從6k變?yōu)?k，在其他因素不變的情況下評分結(jié)果也不會發(fā)生改變。
類別型變量，當(dāng)取值個數(shù)很多時(shí)，如果不分箱將會導(dǎo)致變量膨脹。例如，對于31個省級行政區(qū)(不含港澳臺)，使用onehot編碼將會產(chǎn)生31個變量；采用啞變量編碼將會產(chǎn)生30個變量。

分箱的要求

不需要分箱的變量

對于類別型變量，如果取值個數(shù)較少，一般無需分箱

分箱結(jié)果的有序性

對于有序型變量(包括數(shù)值型和有序離散型，例如學(xué)歷)，分箱要求保證有序性

分箱的平衡性

在較嚴(yán)格的情況下，分箱后的每一箱的占比不能相差太大。一般要求占比最小的占，占比不低于5%

分箱的單調(diào)性

在較嚴(yán)格的情況下，有序型變量分箱后每箱的壞樣本率要求與箱呈單調(diào)關(guān)系。

例如，將收入分為<5K, 5K~10K, 10k~20k, >20k后，壞樣本率分別是20%，15%，10%，5%。

或者，將學(xué)歷分為{低于高中}，{高中，大專}，{本科，碩士}，{博士}后，壞樣本率分別是15%，10%，5%，1%。

分箱的個數(shù)

通常要求分箱后，箱的個數(shù)不能太多，一般在7或5個以內(nèi)

分箱的優(yōu)點(diǎn)與缺點(diǎn)

優(yōu)點(diǎn)：

穩(wěn)定：分箱后，變量原始值在一定范圍內(nèi)的波動不會影響到評分結(jié)果

缺失值處理：缺失值可以作為一個單獨(dú)的箱，或者與其他值進(jìn)行合并作為一個箱

異常值處理：異常值可以和其他值合并作為一個箱

無需歸一化：從數(shù)值型變?yōu)轭悇e型，沒有尺度的差異

缺點(diǎn)：

有一定的信息丟失：數(shù)值型變量在分箱后，變?yōu)槿≈涤邢薜膸讉€箱

需要編碼：分箱后的變量是類別型，不能直接帶入邏輯回歸模型中，需要進(jìn)行一次數(shù)值編碼

常用的分箱的方法

a)卡方分箱法

在有監(jiān)督的分箱算法中，卡方分箱法是常用的一種方法。它以卡方分布和卡方值為基礎(chǔ)，判斷某個因素是否會影響目標(biāo)變量。例如，在檢驗(yàn)性別是否會影響違約概率時(shí)，可以用卡方檢驗(yàn)來判斷。

卡方檢驗(yàn)的無效假設(shè)H0是：觀察頻數(shù)與期望頻數(shù)沒有差別，即該因素不會影響到目標(biāo)變量。基于該假設(shè)計(jì)算出χ2值，它表示觀察值與理論值之間的偏離程度。根據(jù)χ2分布及自由度可以確定在H0假設(shè)成立的情況下獲得當(dāng)前統(tǒng)計(jì)量及更極端情況的概率P。如果P值很小，說明觀察值與理論值偏離程度太大，應(yīng)當(dāng)拒絕無效假設(shè)，表示比較資料之間有顯著差異；否則就不能拒絕無效假設(shè)，尚不能認(rèn)為樣本所代表的實(shí)際情況和理論假設(shè)有差別。

卡方值的計(jì)算：

m:該因素取值個數(shù); k：類別數(shù)
：因素i組中，k類別的觀察頻數(shù)
：原假設(shè)下的期望。

當(dāng)樣本總量比較大時(shí)，χ2統(tǒng)計(jì)量近似服從(m-1)(k-1)個自由度的卡方分布。

卡方檢驗(yàn)的案例

總的違約率是(120+80)/(320+300)=32.25%

如果性別與違約不相關(guān)，意味著這男性與女性的違約率是同等的，都是32.25%，則：

男性違約的期望值為320*32.25% 104，非違約的期望=320-104=216

女性違約的期望值為300*32.25% 97，非違約的期望=300-97=203

由于有隨機(jī)因素的存在，即使"性別與違約不相關(guān)"的假設(shè)成立，觀察到的男性與女性的實(shí)際違約人群也不會精確地等于104和97。卡方檢驗(yàn)的思想就是衡量預(yù)測值與觀察值的差究竟有多大的概率是隨機(jī)因素引起的。如果這個概率很小， "性別與違約不相關(guān)"的假設(shè)是不成成立的，因此男、女性的違約率是不同的。此處概率需要以卡方值對應(yīng)的概率來描述：

由于性別與違約狀況各有2種類別，卡方檢驗(yàn)的自由度為(2-1)(2-1)=1，=8.05 對應(yīng)的p值=0.005,因此性別在違約行為上有顯著地影響。

卡方(ChiMerge)分箱法(續(xù))

ChiMerge法采取自底向上不斷合并的方法完成分箱操作。在每一步的合并過程中，依靠最小的卡方值來尋找最優(yōu)的合并項(xiàng)。其核心思想是，如果某兩個區(qū)間可以被合并，那么這兩個區(qū)間的壞樣本需要有最接近的分布，進(jìn)而意味著兩個區(qū)間的卡方值是最小的。于是ChiMerge的步驟如下：

將數(shù)值變量排序后分成區(qū)間較多的若干組，設(shè)為

計(jì)算合并后的卡方值，合并后的卡方值，直至合并后的卡方值

找出上一步所有合并后的卡方值中最小的一個，假設(shè)為,將其合并形成新的

不斷重復(fù)2和3，直至滿足終止條件

通用的ChiMerge的終止條件是：

某次合并后，最小的卡方值的p值超過0.9(或0.95，0.99等)，或者

某側(cè)合并后，總的未合并的區(qū)間數(shù)達(dá)到指定的數(shù)目(例如5，10，15等)

壞樣本率非單調(diào)情形下的分箱合并

如前所述，當(dāng)卡方分箱法完成分箱后，每一箱的壞樣本率不一定滿足單調(diào)的要求，此時(shí)需要做進(jìn)一步的合并。此時(shí)有2種方案：

利用卡方分箱法縮減分箱數(shù)目。例如，當(dāng)前分為5箱時(shí)出現(xiàn)壞樣本率非單調(diào)情形，可以在卡方分箱法中設(shè)置分箱數(shù)為4，檢驗(yàn)分箱數(shù)目為4時(shí)候的單調(diào)性。如果滿足，即停止分箱；如不滿足，可進(jìn)一步地縮減分箱數(shù)目。分箱數(shù)目最小為2，因?yàn)橹挥袃上涞那闆r下，單調(diào)性的存在性失去意義了。

對于當(dāng)前不滿足單調(diào)性的箱，可以與之前或之后的箱進(jìn)行合并。如上一頁圖中，第3箱的的壞樣本率低于前后兩箱，于是需要合并。選擇與之前或者之后的箱進(jìn)行合并，可以依據(jù)以下原則：

合并之后，非單調(diào)的程度減輕。例如將第3箱和第4箱進(jìn)行合并后，整體的單調(diào)性得到保證，于是執(zhí)行該方案

如果兩種方案都可以減輕非單調(diào)性，則可以選擇"較優(yōu)"的一種。一般來講，可以從2點(diǎn)考量是否"較優(yōu)"。假設(shè)合并2、3箱優(yōu)于合并3、4箱，因?yàn)?

合并2、3箱后的卡方值低于合并3、4箱后的卡方值，或者
合并2、3箱后，所有箱的占比比合并3、4箱后的占比更加平衡。

判斷分箱后的分布均勻性

假設(shè)將原變量分為m箱，每箱的占比分別是.
可以用以下公式衡量占比的均勻性：
?
由施瓦茨不等式可以知道，當(dāng)時(shí)，最小，
等于。當(dāng)中有一個為1其余為0時(shí)，最大，等于1.于是可以看出，Balance越小表明越均勻。

帶有特殊值的分箱

在實(shí)際業(yè)務(wù)工作中，一些正常的觀測值之外有時(shí)會有一些特殊值的存在，例如缺失。從之前的分析可以知道，本次案例的數(shù)據(jù)中部分變量含有一些缺失值。在評分卡模型中，對于缺失值通常我們將其看成一種特殊的值。連續(xù)型變量的分箱工作需要預(yù)先將這些特殊值排除在外，即特殊值不參與分箱。

當(dāng)連續(xù)型變量存在特殊值時(shí)，需要將特殊值看成單獨(dú)的一箱，其余正常值參與分箱，且分箱個數(shù)為預(yù)設(shè)個數(shù)減去特殊值的個數(shù)。這里需要注意：

由于特殊值無法和其他數(shù)值進(jìn)行比較，故檢驗(yàn)壞樣本率的單調(diào)性時(shí)，不考慮特殊值的壞樣本率
當(dāng)特殊值的占比很小(例如低于5%)，可以考慮將特殊值與正常值中的一箱進(jìn)行合并，且通常與最小的一箱或者最大的一箱進(jìn)行合并

類別型(無序)變量的分箱

上述介紹的ChiMerge分箱法是針對數(shù)值型變量，例如收入、年齡等。分箱過程要保持原變量的有序性。對于類別型變量，如果是無序且取值個數(shù)較大，此時(shí)進(jìn)行ChiMerge分箱之前需要先進(jìn)行一次數(shù)值編碼，用數(shù)字代替原來的類別型值。常用的數(shù)值編碼是該數(shù)值對應(yīng)的平均壞樣本率。

例如，在評分模型里省份是一個常用的變量。在31個省級行政區(qū)(不含港澳臺)中，我們用每個省在樣本里的壞樣本率代替原先的省級行政區(qū)。在這樣的轉(zhuǎn)換之下，類別型變量就轉(zhuǎn)換成數(shù)值型變量。進(jìn)而可以使用ChiMerge分箱法進(jìn)行分箱操作。分箱后的省份可能是{北上廣深}，{蘇浙魯閩}，{其他}等。

類別型(有序)變量的分箱

對于有序的類別型變量，例如學(xué)歷={小學(xué)，初中，高中，大專，本科，碩士，博士}，先將該變量進(jìn)行排序，然后依然可以按照數(shù)值型變量的ChiMerge分箱法來進(jìn)行分箱。"學(xué)歷"這一邊量最終的分箱結(jié)果可能是{小學(xué)，初中，高中}，{大專，本科}，{碩士，博士}

ChiMerge分箱法的優(yōu)點(diǎn)與缺點(diǎn)

WOE與特征信息值

WOE編碼

編碼操作是一種用數(shù)值代替非數(shù)值的操作，目的是為了讓模型能夠?qū)ζ溥M(jìn)行數(shù)學(xué)運(yùn)算。例如，可以用3組0~255之間的整數(shù)來對顏色進(jìn)行編碼。在評分卡模型開發(fā)中，完成變量的分箱后所有的變量都變成了組別。此時(shí)需要對其進(jìn)行編碼才能下一步的建模。評分卡模型里常用WOE(Weight of Evidence)的形式進(jìn)行分箱后的編碼。其計(jì)算公式如下：

WOE編碼的含義

注意到WOE公式

我們有：

WOE的符號性質(zhì)：

即如果某箱的WOE是正的，表明該箱的壞樣本率低于整個樣本的平均壞樣本率，相對更加容易出現(xiàn)好樣本

WOE的單調(diào)性質(zhì):

即WOE的單調(diào)性與壞樣本率的單調(diào)性相反。

使用WOE編碼的注意點(diǎn)

從WOE的計(jì)算公式可以看出，要使得某一箱的有意義，則與必須為大于0的正數(shù)。這也意味著在上一步的分箱操作中，每一箱都必須同時(shí)包含好壞樣本。
上式的對數(shù)計(jì)算中，好、壞樣本的占比分別在分子和分母上。也可以好、壞樣本的占比分別在分母和分子上，但是要求某一個模型里，所有變量的處理方式是一致的。同時(shí)，WOE的計(jì)算方式對后續(xù)邏輯回歸模型的變量的符號是有一定的要求的。

WOE編碼的優(yōu)點(diǎn)與缺點(diǎn)

WOE編碼的優(yōu)點(diǎn)

提高模型的性能：以每一箱中的相對全體的log odds的超出作為編碼依據(jù)，能夠提高模型的預(yù)測精度

統(tǒng)一變量的尺度：經(jīng)驗(yàn)上來看，WOE編碼后的取值范圍一般介意-4與4之間

分層抽樣中的WOE不變性：如果建模需要對好壞樣本進(jìn)行分層抽樣，則抽樣后計(jì)算的WOE與未抽樣計(jì)算的WOE是一致的

WOE編碼的缺點(diǎn)

要求每箱中同時(shí)包含好壞樣本：已在之前有過說明

對多類別標(biāo)簽無效：如果目標(biāo)變量取值個數(shù)超過2個，分箱后的WOE是無法計(jì)算的

特征信息值(IV)

在評分卡模型中，衡量變量重要性的工作是一項(xiàng)必要的工作。在特征工程的初期我們往往能夠衍生出數(shù)量較多的變量，但是并不能保證這些變量對于模型開發(fā)來說都很重要。通過衡量變量重要性，能夠讓我們從中挑選出相對更加重要的變量，為后續(xù)的分析提供降維的能力。此處我們通過計(jì)算特征信息值(Information Value)來衡量其重要性。其計(jì)算公式如下：

從上式的計(jì)算可以看出，某變量的IV是該變量每個箱的WOE的加權(quán)，權(quán)重是。如前所述，WOE的計(jì)算也可以是。則此時(shí)權(quán)重也影響修正為。關(guān)于IV，我們有：

非負(fù)性：如果,則, 且, 進(jìn)而有, 從而,于是IV>0.

權(quán)重性：WOE反映的是每箱中好壞比相對全體樣本好壞比的超出(excess)，而IV反映的是在該箱體量的意義下，這種超出的顯著性。例如，某一箱的好、壞各自占了2%和1%，另一箱中的好、壞各自占了20%和10%。從WOE的角度看，二者是一致的，都是ln(2)。但是前者的體量較少而后者的體量較大，分別是(2%-1%)=1%與(20%-10%)=10%。所以后者的顯著性更強(qiáng)一些。

關(guān)于IV，我們需要注意幾點(diǎn)：

IV衡量的是特征總體的重要性，而非每一箱的重要性。IV值越大，則表明該變量的重要程度越高。但是IV的值不宜太大，否則有可能有過擬合的風(fēng)險(xiǎn)。

與WOE一樣，IV也要求每一箱中同時(shí)包含好壞樣本

IV不僅受到變量重要性的影響，同時(shí)也與分箱方式有關(guān)。通常來講，一個變量分箱的粒度越細(xì)，則IV會升高。所以需要注意到分箱的合理性。若干個變量分箱的個數(shù)差異不大時(shí)，才能比較IV。

3. 單變量分析與多變量分析

單變量分析(Single Factor Analysis)

完成變量分箱、WOE編碼與IV計(jì)算后，我們需要做單變量分析。一般而言從兩個角度進(jìn)行分析：

變量的重要性。變量的重要性可以從IV值的判斷出發(fā)。不同的IV值反映出變量不同程度的重要性。一般而言，IV的選擇如下：

但是當(dāng)IV異常高，例如超過1時(shí)，需要注意此時(shí)變量的分箱方式可能是不穩(wěn)定的。

變量分布的穩(wěn)定性。合適的變量，各箱的占比不會很懸殊。如果某變量有一箱的占比遠(yuǎn)低于其他箱，則該變量的穩(wěn)定性也較弱。

單變量分析是從重要性及分布的穩(wěn)定性兩個角度來考慮。通常先選擇IV高于閾值(如0.2)的變量，再挑選出分箱較均勻的變量。

多變量分析(Multi Factors Analysis)

完成單變量分析后，我們還需要對變量的整體性做把控，利用多變量分析的技術(shù)進(jìn)一步縮減變量規(guī)模，形成全局更優(yōu)的變量體系。多變量分析從以下兩個角度分析變量的特性并完成挑選工作:

變量間的兩兩線性相關(guān)性
變量間的多重共線性

變量間不允許存在太強(qiáng)的兩兩線性相關(guān)性。主要原因是：

若變量和變量的兩兩線性相關(guān)性較強(qiáng)，說明這兩個變量間存在一定的信息冗余。同時(shí)保留在模型里，即無必要，同時(shí)也增加了模型開發(fā)、部署與維護(hù)的負(fù)擔(dān)
較強(qiáng)的線性相關(guān)性甚至?xí)绊懟貧w模型的參數(shù)估計(jì)。在回歸模型的參數(shù)估計(jì)中，當(dāng)兩個變量間存在較強(qiáng)的線性相關(guān)性時(shí)，參數(shù)的估計(jì)會有較大的偏差

多變量分析(續(xù))

完成變量間的兩兩線性相關(guān)性檢驗(yàn)后，我們還需要檢驗(yàn)是否存在多重共線性(multicolinearity)。多重共線性是指，一組變量中，某一個變量與其他變量的線性組合存在較強(qiáng)的線性相關(guān)性。同樣地，存在較強(qiáng)的多重共線性意味著存在信息冗余，且對模型的參數(shù)估計(jì)產(chǎn)生影響。多重共線性通常用方差膨脹因子(VIF)來衡量，其計(jì)算方式如下：

其中是對的線性回歸的決定系數(shù)。

一般而言，我們用10來衡量是否存在多重共線性。對于VIF>10，可以認(rèn)為變量間存在多重共線性。此時(shí)，需要逐步從剔除一個變量，剩余的變量與計(jì)算VIF。如果發(fā)現(xiàn)當(dāng)剔除后剩余變量對的VIF低于10，則從與中剔除IV較低的一個。如果每次剔除一個變量還不能降低VIF，則每次剔除2個變量，直至變量間不存在多重共線性。

總結(jié)

以上是生活随笔為你收集整理的第四章数据的预处理与特征构建(续)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

编程问答

第四章 数据的预处理与特征构建(续)

申請?jiān)u分卡模型

總結(jié)

第四章数据的预处理与特征构建(续)