日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

特征共线性问题

發(fā)布時(shí)間:2025/3/15 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 特征共线性问题 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

多重共線性是使用線性回歸算法時(shí)經(jīng)常要面對的一個(gè)問題。在其他算法中,例如決策樹或者樸素貝葉斯,前者的建模過程時(shí)逐漸遞進(jìn),每次都只有一個(gè)變量參與,這種機(jī)制含有抗多重共線性干擾的功能;后者假設(shè)變量之間是相互獨(dú)立的。但對于回歸算法來說,都要同時(shí)考慮多個(gè)預(yù)測因子,因此多重共線性不可避免。

多重共線性(Multicollinearity)是指線性回歸模型中的自變量之間由于存在高度相關(guān)關(guān)系而使模型的權(quán)重參數(shù)估計(jì)失真或難以估計(jì)準(zhǔn)確的一種特性,多重是指一個(gè)自變量可能與多個(gè)其他自變量之間存在相關(guān)關(guān)系。

1.?LR中的共線性問題和解決方法

假設(shè)k個(gè)自變量的多元線性回歸模型:

利用最小二乘法可得到參數(shù)的估計(jì)為:

如果X不是滿秩的話,會(huì)有無窮多個(gè)解。如果變量之間存在共線性,那么X近乎是不滿秩的,XTX近乎是奇異的。

從統(tǒng)計(jì)學(xué)的角度來看:

如果方差膨脹因子很大,也就是相關(guān)系數(shù)R趨向1的時(shí)候,方差就會(huì)變得異常大。

解決辦法可以有:

  • PCA等降維方法。因?yàn)樵谠继卣骺臻g中變量之間相關(guān)性大,很容易想到通過降低維度的形式來去除這種共線性。
  • 正則化。使用嶺回歸(L2)或者lasso回歸(L1)或者elasticnet回歸(L1+L2)
  • 逐步回歸法

特征共線性不影響模型的預(yù)測效果只要模型能夠最終收斂,但是這個(gè)答案的前提假設(shè)是輸入的數(shù)據(jù)是理想化的,不存在噪聲的,然而實(shí)際應(yīng)用工程中這是不太可能的,總會(huì)有一部分特征帶有噪聲,有可能是etl工程師的疏忽,有可能是數(shù)據(jù)來源受到了污染,這個(gè)問題在一些銀行領(lǐng)域的業(yè)務(wù)中比較典型:

例如,現(xiàn)在許多銀行系的金融科技子公司都開始漸漸使用一些機(jī)器學(xué)習(xí)的算法來對信貸風(fēng)控進(jìn)行建模,經(jīng)常會(huì)涉及到對第三方數(shù)據(jù)的購買,我們假設(shè)從A、B、C三個(gè)渠道獲取了3個(gè)特征,使用邏輯回歸,標(biāo)簽為信用不良用戶與信用優(yōu)良用戶的二分類問題,假設(shè)這個(gè)3個(gè)特征之間相關(guān)性很強(qiáng),我們直接使用lr建模,模型收斂,通過oot,上線,嗯,第一個(gè)季度效果不錯(cuò),到了第二個(gè)季度,模型需要進(jìn)行迭代,結(jié)果A公司數(shù)據(jù)庫工程師刪庫跑路了,A公司也沒做備份,啥數(shù)據(jù)都拿不出來,得,這個(gè)月的A特征全是缺失值,模型不好迭代了,做個(gè)插補(bǔ)吧,誤差太大,不做吧,又沒法迭代,尷尬。 如果一開始考慮到特征之間相關(guān)性強(qiáng)的問題,刪除了A、B這兩特征留下C,那么這種問題的出現(xiàn)所帶來的影響相對就要小的多了。

相關(guān)性強(qiáng)的特征如果同時(shí)建模,潛在的實(shí)際上是增大了模型受噪聲干擾的面,還是上面強(qiáng)相關(guān)的A、B、C三個(gè)特征的例子,假設(shè)A、B、C三者收到噪聲干擾的概率都是0.05,則當(dāng)僅使用其中一個(gè)特征的時(shí)候,受到噪聲干擾的概率為0.05,如果選擇了3個(gè)特征,則受到噪聲干擾的概率為1-0.95*0.95*0.95約為0.143,結(jié)果兩種方案得到的模型的效果還差不多。

2. 為什么樹模型對特征之間的共線性不強(qiáng)調(diào)呢?

在統(tǒng)計(jì)分析中,作推斷時(shí),如果自變量存在共線性,將無法區(qū)分它們對因變量的影響,因此無法對結(jié)果進(jìn)行清楚的解釋。但是有時(shí)候做預(yù)測(prediction)時(shí),我們并不關(guān)心如何解釋自變量對因變量的影響。GBDT、神經(jīng)網(wǎng)絡(luò) 也更像一個(gè)black-box,很適合做預(yù)測分析。(共線性不影響模型的預(yù)測而是影響對模型的解釋),但是在一些特定的領(lǐng)域,比如金融,從業(yè)人員是非常強(qiáng)調(diào)模型的可解釋性的,因?yàn)槟P涂山忉尵涂梢院蛷臉I(yè)人員的先驗(yàn)知識(shí)形成一個(gè)比較好的互補(bǔ),從而提高模型的有效性。做預(yù)測時(shí),往往用貪婪算法進(jìn)行變量選擇,只有新變量對結(jié)果影響比較大時(shí),才會(huì)被加入到模型中,因此,在step-wise variable selection的過程中,共線性的變量只有一個(gè)會(huì)被選入到模型中。在決策樹模型中,每一個(gè)樹的構(gòu)建都是貪婪的,因此,冗余的特征并不會(huì)被加入模型中,也就是說如果變量之間相關(guān)性非常強(qiáng)最終很可能只會(huì)選擇部分進(jìn)入模型。

3.?為什么會(huì)在訓(xùn)練的過程當(dāng)中將高度相關(guān)的特征去掉?

  • 去掉高度相關(guān)的特征會(huì)讓模型的可解釋性更好
  • 可以大大提高訓(xùn)練的速度。如果模型當(dāng)中有很多特征高度相關(guān)的話,就算損失函數(shù)本身收斂了,但實(shí)際上參數(shù)是沒有收斂的,這樣會(huì)拉低訓(xùn)練的速度。其次是特征多了,本身就會(huì)增大訓(xùn)練的時(shí)間。
  • 用lgb來基于自身特征重要性做特征選擇的時(shí)候,共線性是一個(gè)非常致命的問題,因?yàn)楣簿€性會(huì)導(dǎo)致一些相關(guān)性高但是重要性高的特征在特征選擇的過程中被排除掉,一開始是因?yàn)槭褂昧颂卣髦匾宰鳛樘卣骱Y選的方法發(fā)現(xiàn)最終的泛化效果反而差了,最后仔細(xì)排查才發(fā)現(xiàn)了共線性的問題,因?yàn)橛腥齻€(gè)特征的相關(guān)性太高,訓(xùn)練的時(shí)候,每一顆樹都是從這3個(gè)特征中隨機(jī)選擇一個(gè),而選完了一個(gè)之后,另外兩個(gè)由于相關(guān)度太高的問題,在下一次分裂的時(shí)候往往沒有辦法帶來大的增益了(因?yàn)橐呀?jīng)被選中的特征搶先分裂了),所以最終的結(jié)果就是,3個(gè)強(qiáng)大的特征最終的分裂次數(shù)或者分裂增益值都很小,看起來好像不是很重要的樣子所以,在實(shí)際的過程中,還是建議要把特征相關(guān)性考慮進(jìn)去,免得出現(xiàn)各種各樣意想不到的幺蛾子。。。
  • 最后一點(diǎn)的內(nèi)容我在下面這幅圖的段落中已經(jīng)陳述過了,不要以為gbdt就可以為所欲為!

?

參考知乎:https://zhuanlan.zhihu.com/p/70124378?from_voters_page=true

?

?

?

總結(jié)

以上是生活随笔為你收集整理的特征共线性问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。