统计模型中各检验分布及判断共线性方法
假設檢驗:
兩類錯誤:棄真存偽;阿爾法表示犯第一類錯誤(棄真)概率
P值:如果原假設為真,則這個樣本值發生的概率最大為多少
對于匹配樣本的檢驗,可以用匹配樣本的差值來進行檢驗他們的顯著水平
匹配樣本:同一個樣本在不同時間點的狀態
F分布:兩個分布的方差之比;檢驗兩個分布方差的差異程度
曲線相關:只存在數據挖掘;統計學只研究直線相關
相關分析
相關系數大于0.8:高度相關
相關系數大于等于0.5,小于0.8:中度相關
相關系數在0.3到0.5之間,視為低度相關
相關系數小于0.3,視為不相關
各相關系數區別:
皮爾遜相關系數:一般用來計算兩個連續型變量的相關系數
肯德爾相關系數:一個連續一個分類(最好是定序變量)
斯皮爾曼相關系數:需要進行排序,排序后再進行相關分析;2個變量無論連續還是分類都可以,但斯皮爾曼是非參數的,會損失信息,盡量不用
相關系數容易受到離散值影響
最小二乘法:只能用于回歸模型的方法;優點是能用最小二乘法,則計算的結果就是最優線性無偏;缺點是只能用于回歸模型
偏回歸系數的貢獻
回歸模型調優
高斯馬爾科夫假定:
1. 線性于參數
2. 隨機抽樣(殘差無序列相關)
3. 不存在完全共線性
4. 誤差條件均值為0
遺漏重要變量的時候特別容易出現內生性問題,因為重要變量會跑到殘差變量中;出現內生性問題時,模型預測一定有偏
5. 誤差的同方差性
6. 誤差的正態性
如果滿足前5條,模型就是理論最優的
只要學會爬蟲,基本互聯網數據都是半公開了
標準誤:標準差的無偏估計量
SST=SSE+SSR
SSE(explained variable)
R^2=SSE/SST
R^2能達到70%-80%已經非常不錯了
不要建立無截距模型,否則模型一定有偏
F分布來檢驗多元回歸模型
F=(SSE/p)/(SSR/(n-p-1))
模型調優:
1. 讓計算機畫分布圖(QQ plot)
2. 分類變量:處理多分類數據,即因子變量轉換
3. 對模型增加交互項:可改變斜率
4. 對模型增加高次項:即用平方的形式將直線變曲線,
判斷共線性的方法:
方差膨脹因子(VIF)
VIF>10,一般要刪變量
VIF>7,需要對x進行調整
變量選擇:
逐步回歸法:前項選擇+后項剔除 結合
如果有100個x,則每個x先和因變量一一跑一個相關系數,再按照相關系數從大到小進行排序來建立回歸模型;
如果第一個顯著是x1,將x1放入后,再加上第二高相關系數的x2,如果x2的加入導致x1不顯著,那么剔除x1,且加上x3,如果x3顯著的話,那么再次放入x1,如此不斷加入相關系數最高的進行刪減
建立回歸模型:
0. 明確需求(Y)
1. 數據清洗(缺失值,異常值(3倍標準差),分類變量)
2. 相關分析(相關系數,散點圖)
3. 分割測試集訓練集(3/7分,或2/8分)
4. 回歸(F檢驗,t檢驗, R^2)
5. 模型調優(殘差是正態性,同方差,不能有內生性,不能有共線性,序列相關性(時間))
6.模型精修(交互項,高次項,時間趨勢,季節趨勢…)
7. 逐步回歸,交叉驗證
8. 模型測試(從第三項拿出來的剩余數據進行檢測)
驗殘差是否符合正態分布,可以通過畫QQplot來檢驗,或者用SW檢驗和KS檢驗
SW檢驗和KS檢驗使用環境:
SW檢驗(樣本數小于5000),KS檢驗(樣本數大于5000)
如果殘差不符合正態分布,最有效的方法是對因變量Y取自然對數
同方差性檢驗:BP檢驗和white檢驗
white檢驗的精確度更高,缺點是消耗大量自由度,所以white檢驗只適用于樣本量足夠大的時候
如果殘差出現異方差性:第一種方法依然是對因變量Y取自然對數;如果無效,則第二種方法是加權最小二乘
內生性:商業上一般直接忽略該影響;如果實在需要,可以使用工具變量
共線性解決:使用VIF值
如果變量之間存在共線性,但是共線性的影響又不大時,首先可以考慮使用主成份分析(奇異值分解),但是主成份分析會改變變量的屬性,所當我們不需要考慮后續變量輸入新的屬性時,可以考慮主成份分析,否則,我們可以考慮使用另一種方法,嶺回歸法或Lasso法,嶺回歸是用絕對值計算權重,而lasso是用平方來計算權重;嶺回歸和Lasso的優點是適用于任何共線性的情況,缺點是只要使用了這兩種方法,那么模型一定是有偏的
序列相關性:高弗雷檢驗(Godfrey)
總結
以上是生活随笔為你收集整理的统计模型中各检验分布及判断共线性方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CAD智能加载影像
- 下一篇: 杰理之蓝牙连接提示音使能【篇】