好好谈谈共线性问题
好好談談共線性問題
馬東什么算法工程師8 人贊同了該文章共線性,即同線性或同線型。統計學中,共線性即多重共線性。
多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由于存在精確相關關系或高度相關關系而使模型估計失真或難以估計準確。
一般來說,由于經濟數據的限制使得模型設計不當,導致設計矩陣中解釋變量間存在普遍的相關關系。完全共線性的情況并不多見,一般出現的是在一定程度上的共線性,即近似共線性。
1、先談談共線性的一般性的影響,
太多相關度很高的特征并沒有提供太多的信息量,并沒有提高數據可以達到的上限,相反,數據集擁有更多的特征意味著更容易收到噪聲的影響,更容易收到特征偏移的影響等等,簡單舉個例子,N個特征全都不受到到內在或者外在因素干擾的概率為k,則2N個特征全部不受到內在或外在因素干擾的概率必然遠小于k。這個問題實際上對于各類算法都存在著一定的不良影響;
2、然后談談線性回歸和邏輯回歸是怎么受到共線性影響的。
邏輯回歸的梯度更新公式:
轉為代碼:
weights = weights - alpha * dataMatrix.transpose()* error其中alpha為學習率,dataMatrix.transpose()為原始數據的矩陣,error=y_pred-y_true.
從這里可以看出,共線性問題對于邏輯回歸損失函數的最優化沒影響,參數都是一樣更新,一樣更新到收斂為止。所以對于預測來說沒什么影響。
那共線性會引發什么問題。。。。:
1、模型參數估計不準確,有時甚至會出現回歸系數的符號與實際情況完全相反的情況,比如邏輯上應該系數為正的特征系數 算出來為負。
2、本應該顯著的自變量不顯著,本不顯著的自變量卻呈現出顯著性(也就是說,無法從p-值的大小判斷出變量是否顯著——下面會給一個例子)
3、多重共線性使參數估計值的方差增大,模型參數不穩定,也就是每次訓練得到的權重系數差異都比較大。
其實多重共線性這樣理解會簡單很多:
假設原始的線性回歸公式為:
y=w1*x1+w2*x2+w3*x3
訓練完畢的線性回歸公式為:
y=5x1+7x2+10x3,
此時加入一個新特征x4,假設x4和x3高度相關,x4=2x3,則
y=w1*x1+w2*x2+w3*x3+w4*x4=w1*x1+w2*x2+(w3+2w4)*x3
因為我們之前擬合出來的最優的回歸方程為:
y=5x1+7x2+10x3
顯然w3+2w4可以合并成一個新的權重稀疏 w5,則
y=w1*x1+w2*x2+w5*x3,顯然:
y=w1*x1+w2*x2+w3*x3和y=w1*x1+w2*x2+w5*x3是等價的。。。。
那么最終最優的模型應該也是 y=5x1+7x2+10x3
但是考慮到引入了x4,所以w4和w3的權重是分開計算出來的,這就導致了
w5=10=w3+2w4,顯然這個方程有無窮多的解,比如w3=4,w4=3,或者w4=-1,w3=12等,因此導致了模型系數估計的不穩定并且可能會出現負系數的問題。
下面的圖和鏈接都不錯。
glfkuan:模型中存在共線性問題,該怎么破?
先從線性回歸說起。
關于statsmodel,這里也介紹了每個指標的含義:
https://blog.csdn.net/zm147451753/article/details/83107535這一篇已經解釋的非常好了。做一些補充吧。打比賽的時候線性回歸的這些檢驗基本沒什么人做,但是業務上經常要求做各種各樣的檢驗。statsmodel的檢驗項目比較全面,實際上邏輯回歸與線性回歸比我們想象的要復雜。
DF Residuals:
殘差的自由度(等于 觀測數也就是樣本數(No. Observations)-參數數目(Df Model+1(常量參數,權重加上偏置的數量)))
Df Model:
模型參數個數(不包含常量參數)
R-squared:可決系數:
上面分子就是我們訓練出的模型預測的所有誤差。
下面分母就是不管什么我們猜的結果就是y的平均數。(瞎猜的誤差)
adj-R-squared:修正可決系數:
右邊式子的R就是原始的R-sqaure,n是樣本數量,p是特征的數量。
F-statistic:
Prob:p-value
統計顯著性值,
還是系統性的回顧一下回歸統計學方面的知識吧,好多細節都忘記了。
編輯于 2019-11-04回歸分析計量經濟學統計學?贊同 8??2 條評論?分享?收藏?總結
- 上一篇: 回归算法 - 线性回归求解 θ(最大似然
- 下一篇: 什么是高/低方差、高/低偏差、(推荐阅读