日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第四章 数据的预处理与特征构建(续)

發(fā)布時(shí)間:2025/4/5 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第四章 数据的预处理与特征构建(续) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

申請?jiān)u分卡模型

數(shù)據(jù)的預(yù)處理與特征構(gòu)建(續(xù))

  • 課程簡介:邏輯回歸模型的特征需要是數(shù)值型,因此類別型變量不能直接放入模型中去,需要對其進(jìn)行編碼。此外,為了獲取評分模型的穩(wěn)定性,建模時(shí)需要對數(shù)值型特征做分箱的處理。最終在帶入模型之前,我們還需要對特征做單變量與多變量分析的工作。

目錄:

  • 特征的分箱
  • WOE與特征信息值
  • 單變量分析與多變量分析
  • 特征的分箱
    • 分箱的概念

    在評分卡模型開發(fā)中,變量需要進(jìn)行分箱操作才能放入模型當(dāng)中。分箱操作的定義如下:

    • 對于數(shù)值型變量,將其分為若干有限的幾個分段。例如,將收入分為<5K, 5K~10K, 10k~20k, >20k等
    • 對于類別型變量,如果取值個數(shù)很多,將其合并為個數(shù)較少的幾個分段。例如,將省份分為{北,上,廣},{蘇,浙,皖},{黑,吉,遼},{閩,粵,湘},其他。

    評分卡模型引入變量分箱操作的原因

    • 評分結(jié)果需要有一定的穩(wěn)定性。例如,當(dāng)借款人的總體信用資質(zhì)不變時(shí),評分結(jié)果也應(yīng)保持穩(wěn)定。某些變量(如收入)的一點(diǎn)波動,不應(yīng)該影響評分結(jié)果。例如,當(dāng)收入按照上述劃分時(shí),即使月收入從6k變?yōu)?k,在其他因素不變的情況下評分結(jié)果也不會發(fā)生改變。
    • 類別型變量,當(dāng)取值個數(shù)很多時(shí),如果不分箱將會導(dǎo)致變量膨脹。例如,對于31個省級行政區(qū)(不含港澳臺),使用onehot編碼將會產(chǎn)生31個變量;采用啞變量編碼將會產(chǎn)生30個變量。
    • 分箱的要求

    不需要分箱的變量

    對于類別型變量,如果取值個數(shù)較少,一般無需分箱

    分箱結(jié)果的有序性

    對于有序型變量(包括數(shù)值型和有序離散型,例如學(xué)歷),分箱要求保證有序性

    分箱的平衡性

    在較嚴(yán)格的情況下,分箱后的每一箱的占比不能相差太大。一般要求占比最小的占,占比不低于5%

    分箱的單調(diào)性

    在較嚴(yán)格的情況下,有序型變量分箱后每箱的壞樣本率要求與箱呈單調(diào)關(guān)系。

    例如,將收入分為<5K, 5K~10K, 10k~20k, >20k后,壞樣本率分別是20%,15%,10%,5%。

    或者,將學(xué)歷分為{低于高中},{高中,大專},{本科,碩士},{博士}后,壞樣本率分別是15%,10%,5%,1%。

    分箱的個數(shù)

    通常要求分箱后,箱的個數(shù)不能太多,一般在7或5個以內(nèi)

    分箱的優(yōu)點(diǎn)與缺點(diǎn)

    優(yōu)點(diǎn):

    穩(wěn)定:分箱后,變量原始值在一定范圍內(nèi)的波動不會影響到評分結(jié)果

    缺失值處理:缺失值可以作為一個單獨(dú)的箱,或者與其他值進(jìn)行合并作為一個箱

    異常值處理:異常值可以和其他值合并作為一個箱

    無需歸一化:從數(shù)值型變?yōu)轭悇e型,沒有尺度的差異

    缺點(diǎn):

    有一定的信息丟失:數(shù)值型變量在分箱后,變?yōu)槿≈涤邢薜膸讉€箱

    需要編碼:分箱后的變量是類別型,不能直接帶入邏輯回歸模型中,需要進(jìn)行一次數(shù)值編碼

    常用的分箱的方法

    ?

    a)卡方分箱法

    在有監(jiān)督的分箱算法中,卡方分箱法是常用的一種方法。它以卡方分布和卡方值為基礎(chǔ),判斷某個因素是否會影響目標(biāo)變量。例如,在檢驗(yàn)性別是否會影響違約概率時(shí),可以用卡方檢驗(yàn)來判斷。

    卡方檢驗(yàn)的無效假設(shè)H0是:觀察頻數(shù)與期望頻數(shù)沒有差別,即該因素不會影響到目標(biāo)變量。基于該假設(shè)計(jì)算出χ2值,它表示觀察值與理論值之間的偏離程度。根據(jù)χ2分布及自由度可以確定在H0假設(shè)成立的情況下獲得當(dāng)前統(tǒng)計(jì)量及更極端情況的概率P。如果P值很小,說明觀察值與理論值偏離程度太大,應(yīng)當(dāng)拒絕無效假設(shè),表示比較資料之間有顯著差異;否則就不能拒絕無效假設(shè),尚不能認(rèn)為樣本所代表的實(shí)際情況和理論假設(shè)有差別。

    卡方值的計(jì)算:

    • m:該因素取值個數(shù); k:類別數(shù)
    • :因素i組中,k類別的觀察頻數(shù)
    • :原假設(shè)下的期望。

    當(dāng)樣本總量比較大時(shí),χ2統(tǒng)計(jì)量近似服從(m-1)(k-1)個自由度的卡方分布。

    卡方檢驗(yàn)的案例

    ?

    總的違約率是(120+80)/(320+300)=32.25%

    如果性別與違約不相關(guān),意味著這男性與女性的違約率是同等的,都是32.25%,則:

    男性違約的期望值為320*32.25% 104,非違約的期望=320-104=216

    女性違約的期望值為300*32.25% 97,非違約的期望=300-97=203

    由于有隨機(jī)因素的存在,即使"性別與違約不相關(guān)"的假設(shè)成立,觀察到的男性與女性的實(shí)際違約人群也不會精確地等于104和97。卡方檢驗(yàn)的思想就是衡量預(yù)測值與觀察值的差究竟有多大的概率是隨機(jī)因素引起的。如果這個概率很小, "性別與違約不相關(guān)"的假設(shè)是不成成立的,因此男、女性的違約率是不同的。此處概率需要以卡方值對應(yīng)的概率來描述:

    由于性別與違約狀況各有2種類別,卡方檢驗(yàn)的自由度為(2-1)(2-1)=1,=8.05 對應(yīng)的p值=0.005,因此性別在違約行為上有顯著地影響。

    卡方(ChiMerge)分箱法(續(xù))

    ChiMerge法采取自底向上不斷合并的方法完成分箱操作。在每一步的合并過程中,依靠最小的卡方值來尋找最優(yōu)的合并項(xiàng)。其核心思想是,如果某兩個區(qū)間可以被合并,那么這兩個區(qū)間的壞樣本需要有最接近的分布,進(jìn)而意味著兩個區(qū)間的卡方值是最小的。于是ChiMerge的步驟如下:

  • 將數(shù)值變量排序后分成區(qū)間較多的若干組,設(shè)為
  • 計(jì)算合并后的卡方值,合并后的卡方值,直至合并后的卡方值
  • 找出上一步所有合并后的卡方值中最小的一個,假設(shè)為,將其合并形成新的
  • 不斷重復(fù)2和3,直至滿足終止條件
  • 通用的ChiMerge的終止條件是:

  • 某次合并后,最小的卡方值的p值超過0.9(或0.95,0.99等),或者
  • 某側(cè)合并后,總的未合并的區(qū)間數(shù)達(dá)到指定的數(shù)目(例如5,10,15等)
  • ?

    壞樣本率非單調(diào)情形下的分箱合并

    如前所述,當(dāng)卡方分箱法完成分箱后,每一箱的壞樣本率不一定滿足單調(diào)的要求,此時(shí)需要做進(jìn)一步的合并。此時(shí)有2種方案:

  • 利用卡方分箱法縮減分箱數(shù)目。例如,當(dāng)前分為5箱時(shí)出現(xiàn)壞樣本率非單調(diào)情形,可以在卡方分箱法中設(shè)置分箱數(shù)為4,檢驗(yàn)分箱數(shù)目為4時(shí)候的單調(diào)性。如果滿足,即停止分箱;如不滿足,可進(jìn)一步地縮減分箱數(shù)目。分箱數(shù)目最小為2,因?yàn)橹挥袃上涞那闆r下,單調(diào)性的存在性失去意義了。
  • 對于當(dāng)前不滿足單調(diào)性的箱,可以與之前或之后的箱進(jìn)行合并。如上一頁圖中,第3箱的的壞樣本率低于前后兩箱,于是需要合并。選擇與之前或者之后的箱進(jìn)行合并,可以依據(jù)以下原則:
  • 合并之后,非單調(diào)的程度減輕。例如將第3箱和第4箱進(jìn)行合并后,整體的單調(diào)性得到保證,于是執(zhí)行該方案
  • 如果兩種方案都可以減輕非單調(diào)性,則可以選擇"較優(yōu)"的一種。一般來講,可以從2點(diǎn)考量是否"較優(yōu)"。假設(shè)合并2、3箱優(yōu)于合并3、4箱,因?yàn)?
    • 合并2、3箱后的卡方值低于合并3、4箱后的卡方值,或者
    • 合并2、3箱后,所有箱的占比比合并3、4箱后的占比更加平衡。

    判斷分箱后的分布均勻性

    • 假設(shè)將原變量分為m箱,每箱的占比分別是.
    • 可以用以下公式衡量占比的均勻性:
    • ?
    • 由施瓦茨不等式可以知道,當(dāng)時(shí), 最小,

      等于。當(dāng)中有一個為1其余為0時(shí), 最大,等于1.于是可以看出,Balance越小表明越均勻。

    帶有特殊值的分箱

    在實(shí)際業(yè)務(wù)工作中,一些正常的觀測值之外有時(shí)會有一些特殊值的存在,例如缺失。從之前的分析可以知道,本次案例的數(shù)據(jù)中部分變量含有一些缺失值。在評分卡模型中,對于缺失值通常我們將其看成一種特殊的值。連續(xù)型變量的分箱工作需要預(yù)先將這些特殊值排除在外,即特殊值不參與分箱。

    當(dāng)連續(xù)型變量存在特殊值時(shí),需要將特殊值看成單獨(dú)的一箱,其余正常值參與分箱,且分箱個數(shù)為預(yù)設(shè)個數(shù)減去特殊值的個數(shù)。這里需要注意:

    • 由于特殊值無法和其他數(shù)值進(jìn)行比較,故檢驗(yàn)壞樣本率的單調(diào)性時(shí),不考慮特殊值的壞樣本率
    • 當(dāng)特殊值的占比很小(例如低于5%),可以考慮將特殊值與正常值中的一箱進(jìn)行合并,且通常與最小的一箱或者最大的一箱進(jìn)行合并

    類別型(無序)變量的分箱

    上述介紹的ChiMerge分箱法是針對數(shù)值型變量,例如收入、年齡等。分箱過程要保持原變量的有序性。對于類別型變量,如果是無序且取值個數(shù)較大,此時(shí)進(jìn)行ChiMerge分箱之前需要先進(jìn)行一次數(shù)值編碼,用數(shù)字代替原來的類別型值。常用的數(shù)值編碼是該數(shù)值對應(yīng)的平均壞樣本率。

    例如,在評分模型里省份是一個常用的變量。在31個省級行政區(qū)(不含港澳臺)中,我們用每個省在樣本里的壞樣本率代替原先的省級行政區(qū)。在這樣的轉(zhuǎn)換之下,類別型變量就轉(zhuǎn)換成數(shù)值型變量。進(jìn)而可以使用ChiMerge分箱法進(jìn)行分箱操作。分箱后的省份可能是{北上廣深},{蘇浙魯閩},{其他}等。

    類別型(有序)變量的分箱

    對于有序的類別型變量,例如學(xué)歷={小學(xué),初中,高中,大專,本科,碩士,博士},先將該變量進(jìn)行排序,然后依然可以按照數(shù)值型變量的ChiMerge分箱法來進(jìn)行分箱。"學(xué)歷"這一邊量最終的分箱結(jié)果可能是{小學(xué),初中,高中},{大專,本科},{碩士,博士}

    ChiMerge分箱法的優(yōu)點(diǎn)與缺點(diǎn)

    ?

  • WOE與特征信息值
  • WOE編碼

    編碼操作是一種用數(shù)值代替非數(shù)值的操作,目的是為了讓模型能夠?qū)ζ溥M(jìn)行數(shù)學(xué)運(yùn)算。例如,可以用3組0~255之間的整數(shù)來對顏色進(jìn)行編碼。在評分卡模型開發(fā)中,完成變量的分箱后所有的變量都變成了組別。此時(shí)需要對其進(jìn)行編碼才能下一步的建模。評分卡模型里常用WOE(Weight of Evidence)的形式進(jìn)行分箱后的編碼。其計(jì)算公式如下:

    ?

    WOE編碼的含義

    注意到WOE公式

    我們有:

  • WOE的符號性質(zhì):
  • 即如果某箱的WOE是正的,表明該箱的壞樣本率低于整個樣本的平均壞樣本率,相對更加容易出現(xiàn)好樣本

  • WOE的單調(diào)性質(zhì):
  • 即WOE的單調(diào)性與壞樣本率的單調(diào)性相反。

    使用WOE編碼的注意點(diǎn)

    • 從WOE的計(jì)算公式可以看出,要使得某一箱的有意義,則與必須為大于0的正數(shù)。這也意味著在上一步的分箱操作中,每一箱都必須同時(shí)包含好壞樣本。
    • 上式的對數(shù)計(jì)算中,好、壞樣本的占比分別在分子和分母上。也可以好、壞樣本的占比分別在分母和分子上,但是要求某一個模型里,所有變量的處理方式是一致的。同時(shí),WOE的計(jì)算方式對后續(xù)邏輯回歸模型的變量的符號是有一定的要求的。

    WOE編碼的優(yōu)點(diǎn)與缺點(diǎn)

    WOE編碼的優(yōu)點(diǎn)

    提高模型的性能:以每一箱中的相對全體的log odds的超出作為編碼依據(jù),能夠提高模型的預(yù)測精度

    統(tǒng)一變量的尺度:經(jīng)驗(yàn)上來看,WOE編碼后的取值范圍一般介意-4與4之間

    分層抽樣中的WOE不變性:如果建模需要對好壞樣本進(jìn)行分層抽樣,則抽樣后計(jì)算的WOE與未抽樣計(jì)算的WOE是一致的

    WOE編碼的缺點(diǎn)

    要求每箱中同時(shí)包含好壞樣本:已在之前有過說明

    對多類別標(biāo)簽無效:如果目標(biāo)變量取值個數(shù)超過2個,分箱后的WOE是無法計(jì)算的

    特征信息值(IV)

    在評分卡模型中,衡量變量重要性的工作是一項(xiàng)必要的工作。在特征工程的初期我們往往能夠衍生出數(shù)量較多的變量,但是并不能保證這些變量對于模型開發(fā)來說都很重要。通過衡量變量重要性,能夠讓我們從中挑選出相對更加重要的變量,為后續(xù)的分析提供降維的能力。此處我們通過計(jì)算特征信息值(Information Value)來衡量其重要性。其計(jì)算公式如下:

    ?

    從上式的計(jì)算可以看出,某變量的IV是該變量每個箱的WOE的加權(quán),權(quán)重是。如前所述,WOE的計(jì)算也可以是。則此時(shí)權(quán)重也影響修正為。關(guān)于IV,我們有:

    非負(fù)性:如果,則, 且, 進(jìn)而有, 從而,于是IV>0.

    權(quán)重性:WOE反映的是每箱中好壞比相對全體樣本好壞比的超出(excess),而IV反映的是在該箱體量的意義下,這種超出的顯著性。例如,某一箱的好、壞各自占了2%和1%,另一箱中的好、壞各自占了20%和10%。從WOE的角度看, 二者是一致的,都是ln(2)。但是前者的體量較少而后者的體量較大,分別是(2%-1%)=1%與(20%-10%)=10%。所以后者的顯著性更強(qiáng)一些。

    關(guān)于IV,我們需要注意幾點(diǎn):

  • IV衡量的是特征總體的重要性,而非每一箱的重要性。IV值越大,則表明該變量的重要程度越高。但是IV的值不宜太大,否則有可能有過擬合的風(fēng)險(xiǎn)。
  • 與WOE一樣,IV也要求每一箱中同時(shí)包含好壞樣本
  • IV不僅受到變量重要性的影響,同時(shí)也與分箱方式有關(guān)。通常來講,一個變量分箱的粒度越細(xì),則IV會升高。所以需要注意到分箱的合理性。若干個變量分箱的個數(shù)差異不大時(shí),才能比較IV。
  • 3. 單變量分析與多變量分析

    • 單變量分析(Single Factor Analysis)

    完成變量分箱、WOE編碼與IV計(jì)算后,我們需要做單變量分析。一般而言從兩個角度進(jìn)行分析:

  • 變量的重要性。變量的重要性可以從IV值的判斷出發(fā)。不同的IV值反映出變量不同程度的重要性。一般而言,IV的選擇如下:
  • 但是當(dāng)IV異常高,例如超過1時(shí),需要注意此時(shí)變量的分箱方式可能是不穩(wěn)定的。

  • 變量分布的穩(wěn)定性。合適的變量,各箱的占比不會很懸殊。如果某變量有一箱的占比遠(yuǎn)低于其他箱,則該變量的穩(wěn)定性也較弱。
  • 單變量分析是從重要性及分布的穩(wěn)定性兩個角度來考慮。通常先選擇IV高于閾值(如0.2)的變量,再挑選出分箱較均勻的變量。

    ?

    多變量分析(Multi Factors Analysis)

    完成單變量分析后,我們還需要對變量的整體性做把控,利用多變量分析的技術(shù)進(jìn)一步縮減變量規(guī)模,形成全局更優(yōu)的變量體系。多變量分析從以下兩個角度分析變量的特性并完成挑選工作:

    • 變量間的兩兩線性相關(guān)性
    • 變量間的多重共線性

    變量間不允許存在太強(qiáng)的兩兩線性相關(guān)性。主要原因是:

    • 若變量和變量的兩兩線性相關(guān)性較強(qiáng),說明這兩個變量間存在一定的信息冗余。同時(shí)保留在模型里,即無必要,同時(shí)也增加了模型開發(fā)、部署與維護(hù)的負(fù)擔(dān)
    • 較強(qiáng)的線性相關(guān)性甚至?xí)绊懟貧w模型的參數(shù)估計(jì)。在回歸模型的參數(shù)估計(jì)中,當(dāng)兩個變量間存在較強(qiáng)的線性相關(guān)性時(shí),參數(shù)的估計(jì)會有較大的偏差

    ?

    多變量分析(續(xù))

    完成變量間的兩兩線性相關(guān)性檢驗(yàn)后,我們還需要檢驗(yàn)是否存在多重共線性(multicolinearity)。多重共線性是指,一組變量中,某一個變量與其他變量的線性組合存在較強(qiáng)的線性相關(guān)性。同樣地,存在較強(qiáng)的多重共線性意味著存在信息冗余,且對模型的參數(shù)估計(jì)產(chǎn)生影響。多重共線性通常用方差膨脹因子(VIF)來衡量,其計(jì)算方式如下:

    其中是對的線性回歸的決定系數(shù)。

    一般而言,我們用10來衡量是否存在多重共線性。對于VIF>10,可以認(rèn)為變量間存在多重共線性。此時(shí),需要逐步從剔除一個變量,剩余的變量與計(jì)算VIF。如果發(fā)現(xiàn)當(dāng)剔除后剩余變量對的VIF低于10,則從與中剔除IV較低的一個。如果每次剔除一個變量還不能降低VIF,則每次剔除2個變量,直至變量間不存在多重共線性。

    總結(jié)

    以上是生活随笔為你收集整理的第四章 数据的预处理与特征构建(续)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 三级欧美日韩 | 国产精品99久久久精品无码 | av在线导航 | 青青超碰| 制服丝袜av电影 | 四虎影视免费观看 | 国产精品19p| 无码一区二区三区免费视频 | 台湾a级艳片潘金莲 | 欧美大色一区 | 亚州av在线 | 亚洲国产精品成人综合久久久 | 丰满人妻翻云覆雨呻吟视频 | 亚洲第一成年人网站 | 一级片免费播放 | 欧美极品jizzhd欧美 | 欧美视频在线免费看 | 日韩成年人视频 | 久久精品国产亚洲av麻豆 | 久久成人网18网站 | 日本新japanese乱熟 | 欧美xxxxhd| 日韩欧美亚洲成人 | 黄网免费观看 | gai视频在线观看资源 | 韩国无码av片在线观看网站 | 成人国产精品免费观看动漫 | 日韩色图片 | 9999久久久久 | 一级久久 | 日韩中文字幕在线视频 | 狂野欧美性猛交xxxx巴西 | 国产aaa视频 | 少妇特殊按摩高潮惨叫无码 | 少妇真人直播免费视频 | 午夜天堂 | 欧美人xxx| 在线午夜视频 | 思思在线视频 | 精品乱码久久久久久中文字幕 | 亚洲精品乱码久久久久久蜜桃不卡 | 久久久久亚洲AV | 亚洲国产精品18久久久久久 | 91精品免费观看 | 娇妻玩4p被三个男人伺候电影 | 在线观看色视频 | 久久人人爽爽人人爽人人片av | 手机免费在线观看av | 91网站视频在线观看 | 美女隐私无遮挡免费 | 国产一区二区在线视频 | 丰满少妇一区二区 | 色偷偷免费 | 精产国品一二三产品蜜桃 | 一级毛片儿 | av免费观看网 | 蜜桃综合| 成人免费看片'在线观看 | 97人妻一区二区精品免费视频 | 少妇一级淫片免费观看 | 开心激情五月网 | 国产一区视频在线观看免费 | 国产成人黄色av | 污污在线免费观看 | 国产伦精品| 欧美影视 | 五月婷婷在线视频 | 男女三级视频 | 茄子视频A | 在线免费观看a视频 | 动漫3d精品一区二区三区乱码 | 欧美女人交配视频 | 亚洲精品三区 | 精品人体无码一区二区三区 | 天天干精品 | 好吊色青青草 | 中文字幕亚洲乱码熟女一区二区 | 日韩欧美国产一区二区 | 成品短视频泡芙 | 午夜在线一区二区三区 | 黑人巨大精品欧美一区二区 | 男女啪啪无遮挡 | 毛片天天看| 一区二区三区在线观看av | 视频一区二区免费 | 精品一区二区三区精华液 | 涩涩网站在线看 | 欧美七区 | 欧美区视频| 亚洲国产精品久久久久久久 | 久久一区二 | 日韩视频一区二区三区在线播放免费观看 | 草草免费视频 | √天堂中文官网8在线 | 国产香蕉尹人视频在线 | h无码动漫在线观看 | 羞羞羞网站 | 中文字幕日韩一区 | 成人午夜网|