第四章 数据的预处理与特征构建(续)
申請?jiān)u分卡模型
數(shù)據(jù)的預(yù)處理與特征構(gòu)建(續(xù))
- 課程簡介:邏輯回歸模型的特征需要是數(shù)值型,因此類別型變量不能直接放入模型中去,需要對其進(jìn)行編碼。此外,為了獲取評分模型的穩(wěn)定性,建模時(shí)需要對數(shù)值型特征做分箱的處理。最終在帶入模型之前,我們還需要對特征做單變量與多變量分析的工作。
目錄:
- 特征的分箱
- WOE與特征信息值
- 單變量分析與多變量分析
- 分箱的概念
在評分卡模型開發(fā)中,變量需要進(jìn)行分箱操作才能放入模型當(dāng)中。分箱操作的定義如下:
- 對于數(shù)值型變量,將其分為若干有限的幾個分段。例如,將收入分為<5K, 5K~10K, 10k~20k, >20k等
- 對于類別型變量,如果取值個數(shù)很多,將其合并為個數(shù)較少的幾個分段。例如,將省份分為{北,上,廣},{蘇,浙,皖},{黑,吉,遼},{閩,粵,湘},其他。
評分卡模型引入變量分箱操作的原因
- 評分結(jié)果需要有一定的穩(wěn)定性。例如,當(dāng)借款人的總體信用資質(zhì)不變時(shí),評分結(jié)果也應(yīng)保持穩(wěn)定。某些變量(如收入)的一點(diǎn)波動,不應(yīng)該影響評分結(jié)果。例如,當(dāng)收入按照上述劃分時(shí),即使月收入從6k變?yōu)?k,在其他因素不變的情況下評分結(jié)果也不會發(fā)生改變。
- 類別型變量,當(dāng)取值個數(shù)很多時(shí),如果不分箱將會導(dǎo)致變量膨脹。例如,對于31個省級行政區(qū)(不含港澳臺),使用onehot編碼將會產(chǎn)生31個變量;采用啞變量編碼將會產(chǎn)生30個變量。
- 分箱的要求
不需要分箱的變量
對于類別型變量,如果取值個數(shù)較少,一般無需分箱
分箱結(jié)果的有序性
對于有序型變量(包括數(shù)值型和有序離散型,例如學(xué)歷),分箱要求保證有序性
分箱的平衡性
在較嚴(yán)格的情況下,分箱后的每一箱的占比不能相差太大。一般要求占比最小的占,占比不低于5%
分箱的單調(diào)性
在較嚴(yán)格的情況下,有序型變量分箱后每箱的壞樣本率要求與箱呈單調(diào)關(guān)系。
例如,將收入分為<5K, 5K~10K, 10k~20k, >20k后,壞樣本率分別是20%,15%,10%,5%。
或者,將學(xué)歷分為{低于高中},{高中,大專},{本科,碩士},{博士}后,壞樣本率分別是15%,10%,5%,1%。
分箱的個數(shù)
通常要求分箱后,箱的個數(shù)不能太多,一般在7或5個以內(nèi)
分箱的優(yōu)點(diǎn)與缺點(diǎn)
優(yōu)點(diǎn):
穩(wěn)定:分箱后,變量原始值在一定范圍內(nèi)的波動不會影響到評分結(jié)果
缺失值處理:缺失值可以作為一個單獨(dú)的箱,或者與其他值進(jìn)行合并作為一個箱
異常值處理:異常值可以和其他值合并作為一個箱
無需歸一化:從數(shù)值型變?yōu)轭悇e型,沒有尺度的差異
缺點(diǎn):
有一定的信息丟失:數(shù)值型變量在分箱后,變?yōu)槿≈涤邢薜膸讉€箱
需要編碼:分箱后的變量是類別型,不能直接帶入邏輯回歸模型中,需要進(jìn)行一次數(shù)值編碼
常用的分箱的方法
?
a)卡方分箱法
在有監(jiān)督的分箱算法中,卡方分箱法是常用的一種方法。它以卡方分布和卡方值為基礎(chǔ),判斷某個因素是否會影響目標(biāo)變量。例如,在檢驗(yàn)性別是否會影響違約概率時(shí),可以用卡方檢驗(yàn)來判斷。
卡方檢驗(yàn)的無效假設(shè)H0是:觀察頻數(shù)與期望頻數(shù)沒有差別,即該因素不會影響到目標(biāo)變量。基于該假設(shè)計(jì)算出χ2值,它表示觀察值與理論值之間的偏離程度。根據(jù)χ2分布及自由度可以確定在H0假設(shè)成立的情況下獲得當(dāng)前統(tǒng)計(jì)量及更極端情況的概率P。如果P值很小,說明觀察值與理論值偏離程度太大,應(yīng)當(dāng)拒絕無效假設(shè),表示比較資料之間有顯著差異;否則就不能拒絕無效假設(shè),尚不能認(rèn)為樣本所代表的實(shí)際情況和理論假設(shè)有差別。
卡方值的計(jì)算:
- m:該因素取值個數(shù); k:類別數(shù)
- :因素i組中,k類別的觀察頻數(shù)
- :原假設(shè)下的期望。
當(dāng)樣本總量比較大時(shí),χ2統(tǒng)計(jì)量近似服從(m-1)(k-1)個自由度的卡方分布。
卡方檢驗(yàn)的案例
?
總的違約率是(120+80)/(320+300)=32.25%
如果性別與違約不相關(guān),意味著這男性與女性的違約率是同等的,都是32.25%,則:
男性違約的期望值為320*32.25% 104,非違約的期望=320-104=216
女性違約的期望值為300*32.25% 97,非違約的期望=300-97=203
由于有隨機(jī)因素的存在,即使"性別與違約不相關(guān)"的假設(shè)成立,觀察到的男性與女性的實(shí)際違約人群也不會精確地等于104和97。卡方檢驗(yàn)的思想就是衡量預(yù)測值與觀察值的差究竟有多大的概率是隨機(jī)因素引起的。如果這個概率很小, "性別與違約不相關(guān)"的假設(shè)是不成成立的,因此男、女性的違約率是不同的。此處概率需要以卡方值對應(yīng)的概率來描述:
由于性別與違約狀況各有2種類別,卡方檢驗(yàn)的自由度為(2-1)(2-1)=1,=8.05 對應(yīng)的p值=0.005,因此性別在違約行為上有顯著地影響。
卡方(ChiMerge)分箱法(續(xù))
ChiMerge法采取自底向上不斷合并的方法完成分箱操作。在每一步的合并過程中,依靠最小的卡方值來尋找最優(yōu)的合并項(xiàng)。其核心思想是,如果某兩個區(qū)間可以被合并,那么這兩個區(qū)間的壞樣本需要有最接近的分布,進(jìn)而意味著兩個區(qū)間的卡方值是最小的。于是ChiMerge的步驟如下:
通用的ChiMerge的終止條件是:
?
壞樣本率非單調(diào)情形下的分箱合并
如前所述,當(dāng)卡方分箱法完成分箱后,每一箱的壞樣本率不一定滿足單調(diào)的要求,此時(shí)需要做進(jìn)一步的合并。此時(shí)有2種方案:
- 合并2、3箱后的卡方值低于合并3、4箱后的卡方值,或者
- 合并2、3箱后,所有箱的占比比合并3、4箱后的占比更加平衡。
判斷分箱后的分布均勻性
- 假設(shè)將原變量分為m箱,每箱的占比分別是.
- 可以用以下公式衡量占比的均勻性:
- ?
- 由施瓦茨不等式可以知道,當(dāng)時(shí), 最小,
等于。當(dāng)中有一個為1其余為0時(shí), 最大,等于1.于是可以看出,Balance越小表明越均勻。
帶有特殊值的分箱
在實(shí)際業(yè)務(wù)工作中,一些正常的觀測值之外有時(shí)會有一些特殊值的存在,例如缺失。從之前的分析可以知道,本次案例的數(shù)據(jù)中部分變量含有一些缺失值。在評分卡模型中,對于缺失值通常我們將其看成一種特殊的值。連續(xù)型變量的分箱工作需要預(yù)先將這些特殊值排除在外,即特殊值不參與分箱。
當(dāng)連續(xù)型變量存在特殊值時(shí),需要將特殊值看成單獨(dú)的一箱,其余正常值參與分箱,且分箱個數(shù)為預(yù)設(shè)個數(shù)減去特殊值的個數(shù)。這里需要注意:
- 由于特殊值無法和其他數(shù)值進(jìn)行比較,故檢驗(yàn)壞樣本率的單調(diào)性時(shí),不考慮特殊值的壞樣本率
- 當(dāng)特殊值的占比很小(例如低于5%),可以考慮將特殊值與正常值中的一箱進(jìn)行合并,且通常與最小的一箱或者最大的一箱進(jìn)行合并
類別型(無序)變量的分箱
上述介紹的ChiMerge分箱法是針對數(shù)值型變量,例如收入、年齡等。分箱過程要保持原變量的有序性。對于類別型變量,如果是無序且取值個數(shù)較大,此時(shí)進(jìn)行ChiMerge分箱之前需要先進(jìn)行一次數(shù)值編碼,用數(shù)字代替原來的類別型值。常用的數(shù)值編碼是該數(shù)值對應(yīng)的平均壞樣本率。
例如,在評分模型里省份是一個常用的變量。在31個省級行政區(qū)(不含港澳臺)中,我們用每個省在樣本里的壞樣本率代替原先的省級行政區(qū)。在這樣的轉(zhuǎn)換之下,類別型變量就轉(zhuǎn)換成數(shù)值型變量。進(jìn)而可以使用ChiMerge分箱法進(jìn)行分箱操作。分箱后的省份可能是{北上廣深},{蘇浙魯閩},{其他}等。
類別型(有序)變量的分箱
對于有序的類別型變量,例如學(xué)歷={小學(xué),初中,高中,大專,本科,碩士,博士},先將該變量進(jìn)行排序,然后依然可以按照數(shù)值型變量的ChiMerge分箱法來進(jìn)行分箱。"學(xué)歷"這一邊量最終的分箱結(jié)果可能是{小學(xué),初中,高中},{大專,本科},{碩士,博士}
ChiMerge分箱法的優(yōu)點(diǎn)與缺點(diǎn)
?
WOE編碼
編碼操作是一種用數(shù)值代替非數(shù)值的操作,目的是為了讓模型能夠?qū)ζ溥M(jìn)行數(shù)學(xué)運(yùn)算。例如,可以用3組0~255之間的整數(shù)來對顏色進(jìn)行編碼。在評分卡模型開發(fā)中,完成變量的分箱后所有的變量都變成了組別。此時(shí)需要對其進(jìn)行編碼才能下一步的建模。評分卡模型里常用WOE(Weight of Evidence)的形式進(jìn)行分箱后的編碼。其計(jì)算公式如下:
?
WOE編碼的含義
注意到WOE公式
我們有:
即如果某箱的WOE是正的,表明該箱的壞樣本率低于整個樣本的平均壞樣本率,相對更加容易出現(xiàn)好樣本
即WOE的單調(diào)性與壞樣本率的單調(diào)性相反。
使用WOE編碼的注意點(diǎn)
- 從WOE的計(jì)算公式可以看出,要使得某一箱的有意義,則與必須為大于0的正數(shù)。這也意味著在上一步的分箱操作中,每一箱都必須同時(shí)包含好壞樣本。
- 上式的對數(shù)計(jì)算中,好、壞樣本的占比分別在分子和分母上。也可以好、壞樣本的占比分別在分母和分子上,但是要求某一個模型里,所有變量的處理方式是一致的。同時(shí),WOE的計(jì)算方式對后續(xù)邏輯回歸模型的變量的符號是有一定的要求的。
WOE編碼的優(yōu)點(diǎn)與缺點(diǎn)
WOE編碼的優(yōu)點(diǎn)
提高模型的性能:以每一箱中的相對全體的log odds的超出作為編碼依據(jù),能夠提高模型的預(yù)測精度
統(tǒng)一變量的尺度:經(jīng)驗(yàn)上來看,WOE編碼后的取值范圍一般介意-4與4之間
分層抽樣中的WOE不變性:如果建模需要對好壞樣本進(jìn)行分層抽樣,則抽樣后計(jì)算的WOE與未抽樣計(jì)算的WOE是一致的
WOE編碼的缺點(diǎn)
要求每箱中同時(shí)包含好壞樣本:已在之前有過說明
對多類別標(biāo)簽無效:如果目標(biāo)變量取值個數(shù)超過2個,分箱后的WOE是無法計(jì)算的
特征信息值(IV)
在評分卡模型中,衡量變量重要性的工作是一項(xiàng)必要的工作。在特征工程的初期我們往往能夠衍生出數(shù)量較多的變量,但是并不能保證這些變量對于模型開發(fā)來說都很重要。通過衡量變量重要性,能夠讓我們從中挑選出相對更加重要的變量,為后續(xù)的分析提供降維的能力。此處我們通過計(jì)算特征信息值(Information Value)來衡量其重要性。其計(jì)算公式如下:
?
從上式的計(jì)算可以看出,某變量的IV是該變量每個箱的WOE的加權(quán),權(quán)重是。如前所述,WOE的計(jì)算也可以是。則此時(shí)權(quán)重也影響修正為。關(guān)于IV,我們有:
非負(fù)性:如果,則, 且, 進(jìn)而有, 從而,于是IV>0.
權(quán)重性:WOE反映的是每箱中好壞比相對全體樣本好壞比的超出(excess),而IV反映的是在該箱體量的意義下,這種超出的顯著性。例如,某一箱的好、壞各自占了2%和1%,另一箱中的好、壞各自占了20%和10%。從WOE的角度看, 二者是一致的,都是ln(2)。但是前者的體量較少而后者的體量較大,分別是(2%-1%)=1%與(20%-10%)=10%。所以后者的顯著性更強(qiáng)一些。
關(guān)于IV,我們需要注意幾點(diǎn):
3. 單變量分析與多變量分析
- 單變量分析(Single Factor Analysis)
完成變量分箱、WOE編碼與IV計(jì)算后,我們需要做單變量分析。一般而言從兩個角度進(jìn)行分析:
但是當(dāng)IV異常高,例如超過1時(shí),需要注意此時(shí)變量的分箱方式可能是不穩(wěn)定的。
單變量分析是從重要性及分布的穩(wěn)定性兩個角度來考慮。通常先選擇IV高于閾值(如0.2)的變量,再挑選出分箱較均勻的變量。
?
多變量分析(Multi Factors Analysis)
完成單變量分析后,我們還需要對變量的整體性做把控,利用多變量分析的技術(shù)進(jìn)一步縮減變量規(guī)模,形成全局更優(yōu)的變量體系。多變量分析從以下兩個角度分析變量的特性并完成挑選工作:
- 變量間的兩兩線性相關(guān)性
- 變量間的多重共線性
變量間不允許存在太強(qiáng)的兩兩線性相關(guān)性。主要原因是:
- 若變量和變量的兩兩線性相關(guān)性較強(qiáng),說明這兩個變量間存在一定的信息冗余。同時(shí)保留在模型里,即無必要,同時(shí)也增加了模型開發(fā)、部署與維護(hù)的負(fù)擔(dān)
- 較強(qiáng)的線性相關(guān)性甚至?xí)绊懟貧w模型的參數(shù)估計(jì)。在回歸模型的參數(shù)估計(jì)中,當(dāng)兩個變量間存在較強(qiáng)的線性相關(guān)性時(shí),參數(shù)的估計(jì)會有較大的偏差
?
多變量分析(續(xù))
完成變量間的兩兩線性相關(guān)性檢驗(yàn)后,我們還需要檢驗(yàn)是否存在多重共線性(multicolinearity)。多重共線性是指,一組變量中,某一個變量與其他變量的線性組合存在較強(qiáng)的線性相關(guān)性。同樣地,存在較強(qiáng)的多重共線性意味著存在信息冗余,且對模型的參數(shù)估計(jì)產(chǎn)生影響。多重共線性通常用方差膨脹因子(VIF)來衡量,其計(jì)算方式如下:
其中是對的線性回歸的決定系數(shù)。
一般而言,我們用10來衡量是否存在多重共線性。對于VIF>10,可以認(rèn)為變量間存在多重共線性。此時(shí),需要逐步從剔除一個變量,剩余的變量與計(jì)算VIF。如果發(fā)現(xiàn)當(dāng)剔除后剩余變量對的VIF低于10,則從與中剔除IV較低的一個。如果每次剔除一個變量還不能降低VIF,則每次剔除2個變量,直至變量間不存在多重共線性。
總結(jié)
以上是生活随笔為你收集整理的第四章 数据的预处理与特征构建(续)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第7章 PCA与梯度上升法
- 下一篇: 第九章 组合模型在信贷风控中的应用