當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大样本OLS模型假设及R实现

發布時間：2023/12/10 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了大样本OLS模型假设及R实现小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大樣本OLS模型假設及R實現

1. 回歸模型及假設
2. 回歸模型的檢驗及處理
- 1. 異方差
- 2. 多重共線性：
- 3. 極端值：
- 4. 其他問題

1. 回歸模型及假設

1. 回歸模型:
見 https://blog.csdn.net/dataxc/article/details/107047611

2. 大樣本OLS假設
（1）線性假設
（2） K +1維隨機過程{Yi，Xi1，Xi2，……，Xik}為漸近獨立的平穩過程(即統計特性如期望、方差等不隨時間改變)，故適用大數定律（頻率趨近于概率）與中心極限定理（樣本均值的分布趨近于正態分布）。
（3）所有解釋變量（自變量）均為“前定”(predetermined)，也稱“同期外生”
(contemporaneously exogenous)，即它們與同期(同方程)的擾動項正交，即Xik與Ei不相關。
（4）自變量Xi系數構成的矩陣 X 滿列秩，即X 中沒有多余(可由其他變量線性表出)的解釋變量，即不存在嚴格多重共線性。

2. 回歸模型的檢驗及處理

1. 異方差

1. 異方差的后果
(1) OLS 估計量依然無偏、一致且漸近正態。因為在證明這些性質時，并未用到“同方差”的假定。
(2) OLS 估計量方差表達式不再是原表達式，t檢驗，F檢驗失效；也就是說，你的得到的t值，F值錯誤。

(3) 高斯-馬爾可夫定理不再成立，OLS 不再是 BLUE(最佳線性無偏估計)。也就是得到的方程不是最佳的。

2. 異方差的檢驗
（1）直觀法——繪制殘差圖
（2）R提供了非常多種檢驗異方差的包。如，擴展包lmtest中采用bptest（）函數；car包中采用ncv.test()函數

model1 <- lm( y ~ X1 + X2 + …… + Xn) # 構建回歸模型 library（lmtest） bptest(model1) #bp檢驗 bptest(model1,studentize=FALSE) #不采用學生化殘差進行修正

3. 異方差的處理
（1）使用OLS+穩健標準誤。一般的，我們使用white一致標準誤來做假設檢驗。為了計算異方差一致性的協方差矩陣，我們可以利用car包中的hccm（）函數； sandwich包中的vcovHC()命令可以實現同樣的功能。同時利用vcovHAC()或者NeweyWest（）函數可以進行異方差和自相關穩健性Newey—West估計。

library(sandwich) model1 <- lm( y ~ X1 + X2 + …… + Xn) summary (model1) NeweyWest(model1) result1 <- coeftest (model1, vcov = NeweyWest(model1)) print (result1) #計算穩健標準誤 summary （model1）

（2）加權最小二乘法（WLS）、可行加權最小二乘法（FWLS）等

2. 多重共線性：

判斷：
（1）方差膨脹因子
一般標準：
①當0<VIF≤5時，沒有多重共線性；
②當5<VIF≤10時，有較弱的多重共線性；
③當10<VIF≤100時，有中等或較強的多重共線性；
④當VIF>100時，有非常嚴重的多重共線性。
vif>=10時， 就說明自變量Xi與其他變量之間有嚴重的多重共線性，且這種多重共線性可能會過度地影響最小二乘估計值。

data(swiss) head(TRUE) model1 <- lm(Fertility~ Agriculture + Examination + Education, data=swiss) summary(model1) library(car) vif(model1)

（2）特征根判定法
通常認為條件數kappa;100k<100時，設計矩陣XX多重共線性的程度很小；100≤k≤1000100≤k≤1000時，設計矩陣XX存在較強的多重共線性；k>1000k>1000時，存在嚴重的多重共線性。

data(swiss) head(TRUE) model1 <- lm(Fertility~ Agriculture + Examination + Education, data=swiss) kappa(model1,exact=TRUE)

根據條件數大于1000，說明自變量之間存在嚴重的多重共線性。為找出哪些變量是多重共線性的，需要計算矩陣的特征值和相應的特征向量，在R命令窗口下面代碼：

eigen(model1) #需要方陣才能判斷哪些變量存在多重共線性行？

（1）如在模型中引入解釋變量的平方項、過多交互項，則易引起多重共線性，因為X與X^2，較相關。
（2）在模型中加入啞變量也容易引起多重共線性，因啞變量之間較相關。

多重共線性處理方法：
（1）如不關心具體的回歸系數，只關心整個方程的預測能力，可不必理會多重共線性(假設整個方程顯著)。多重共線性的主要后果是使得對單個變量的貢獻估計不準，但所有變量的整體效應仍可較準確地估計。
（2）如關心具體的回歸系數，但多重共線性并不影響所關心變量的顯著性，也可不必理會。在方差膨脹的情況下，系數依然顯著；如沒有多重共線性，只會更顯著。
（3）如多重共線性影響所關心變量的顯著性，應設法進行處理。比如，增大樣本容量，剔除導致嚴重共線性的變量，將變量標準化(詳見下文)，或對模型設定進行修改。
（4）解釋變量之間的相關性普遍存在，在一定程度上也是允許的。處理多重共線性的最常見方法是“無為而治”(do nothing)。

3. 極端值：

判斷：
（1）繪制散點圖；
（2）outlierTest（）等，如果p>0.05，可以認為沒有離群點；若p<0.05，則存在離群點。
（2）回歸過后發現無法解釋的地方，如系數相反了、不顯著了……
極端值的處理方法：
（1）應檢查是否因數據輸入有誤導致極端觀測值。
（2）對極端觀測值的個體進行背景調查，看是否由與研究課
題無關的特殊現象所致，必要時可刪除極端數據。
（3）比較穩健的做法是同時匯報“全樣本”(full sample)與刪
除極端數據后的“子樣本”(subsample)的回歸結果，讓讀者自己
做判斷。

4. 其他問題

（1）缺失值
在進行分析時，軟件會會自動將缺失的觀測值從樣本中去掉，導致樣本容量損失。
回歸的時候需要特意看一下實際回歸分析的樣本數

（2）變量單位（數量級）的選擇
例:假如分析、年齡等收入（日元）對心理健康評分的影響。
影響：
（1）收入的系數會很小，保留小數時會出現系數為0的情況；
（2）數據矩陣X中某列的數值是另一列的很多倍，可能使計算機在對矩陣進行數值計算時出現較大誤差。

（3）自相關
可能存在自相關的情形
（1）時間序列數據
（2）空間自相關（如傳染病數據）
（3）對數據的人為處理：如果數據中包含移動平均數(moving
average)、內插值或季節調整時，可從理論上判斷存在自相關。
自相關的后果：同異方差
處理：見https://blog.csdn.net/dataxc/article/details/107047611

**參考：
陳強：《高級計量經濟學》
Robert I. Kabacoff ，高濤等：《R語言實戰》
其他互聯網資料https://blog.csdn.net/u013524655/article/details/41219283等

總結

以上是生活随笔為你收集整理的大样本OLS模型假设及R实现的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： web通信长连接、长轮询
下一篇： PSFTP工具传输文件的命令使用方法