大样本OLS模型假设及R实现
大樣本OLS模型假設及R實現
- 1. 回歸模型及假設
- 2. 回歸模型的檢驗及處理
- 1. 異方差
- 2. 多重共線性:
- 3. 極端值:
- 4. 其他問題
1. 回歸模型及假設
1. 回歸模型:
見 https://blog.csdn.net/dataxc/article/details/107047611
2. 大樣本OLS假設
(1)線性假設
(2) K +1維隨機過程{Yi,Xi1,Xi2,……,Xik}為漸近獨立的平穩過程(即統計特性如期望、方差等不隨時間改變),故適用大數定律(頻率趨近于概率)與中心極限定理(樣本均值的分布趨近于正態分布)。
(3)所有解釋變量(自變量)均為“前定”(predetermined),也稱“同期外生”
(contemporaneously exogenous),即它們與同期(同方程)的擾動項正交,即Xik與Ei不相關。
(4)自變量Xi系數構成的矩陣 X 滿列秩,即X 中沒有多余(可由其他變量線性表出)的解釋變量,即不存在嚴格多重共線性。
2. 回歸模型的檢驗及處理
1. 異方差
1. 異方差的后果
(1) OLS 估計量依然無偏、一致且漸近正態。因為在證明這些性質時,并未用到“同方差”的假定。
(2) OLS 估計量方差表達式不再是原表達式,t檢驗,F檢驗失效;也就是說,你的得到的t值,F值錯誤。
(3) 高斯-馬爾可夫定理不再成立,OLS 不再是 BLUE(最佳線性無偏估計)。也就是得到的方程不是最佳的。
2. 異方差的檢驗
(1)直觀法——繪制殘差圖
(2)R提供了非常多種檢驗異方差的包。如,擴展包lmtest中采用bptest()函數;car包中采用ncv.test()函數
3. 異方差的處理
(1)使用OLS+穩健標準誤。一般的,我們使用white一致標準誤來做假設檢驗。 為了計算異方差一致性的協方差矩陣,我們可以利用car包中的hccm()函數; sandwich包中的vcovHC()命令可以實現同樣的功能。同時利用vcovHAC()或者NeweyWest()函數可以進行異方差和自相關穩健性Newey—West估計。
(2)加權最小二乘法(WLS)、可行加權最小二乘法(FWLS)等
2. 多重共線性:
判斷:
(1)方差膨脹因子
一般標準:
①當0<VIF≤5時,沒有多重共線性;
②當5<VIF≤10時,有較弱的多重共線性;
③當10<VIF≤100時,有中等或較強的多重共線性;
④當VIF>100時,有非常嚴重的多重共線性。
vif>=10時 , 就說明自變量Xi與其他變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計值。
(2)特征根判定法
通常認為條件數kappa;100k<100時,設計矩陣XX多重共線性的程度很小;100≤k≤1000100≤k≤1000時,設計矩陣XX存在較強的多重共線性;k>1000k>1000時,存在嚴重的多重共線性。
根據條件數大于1000,說明自變量之間存在嚴重的多重共線性。為找出哪些變量是多重共線性的,需要計算矩陣的特征值和相應的特征向量,在R命令窗口下面代碼:
eigen(model1) #需要方陣才能判斷哪些變量存在多重共線性行?(1)如在模型中引入解釋變量的平方項、過多交互項,則易引起多重共線性,因為X與X^2,較相關。
(2)在模型中加入啞變量也容易引起多重共線性,因啞變量之間較相關。
多重共線性處理方法:
(1)如不關心具體的回歸系數,只關心整個方程的預測能力,可不必理會多重共線性(假設整個方程顯著)。多重共線性的主要后果是使得對單個變量的貢獻估計不準,但所有變量的整體效應仍可較準確地估計。
(2) 如關心具體的回歸系數,但多重共線性并不影響所關心變量的顯著性,也可不必理會。在方差膨脹的情況下,系數依然顯著;如沒有多重共線性,只會更顯著。
(3)如多重共線性影響所關心變量的顯著性,應設法進行處理。比如,增大樣本容量,剔除導致嚴重共線性的變量,將變量標準化(詳見下文),或對模型設定進行修改。
(4)解釋變量之間的相關性普遍存在,在一定程度上也是允許的。處理多重共線性的最常見方法是“無為而治”(do nothing)。
3. 極端值:
判斷:
(1)繪制散點圖;
(2)outlierTest()等,如果p>0.05,可以認為沒有離群點;若p<0.05,則存在離群點。
(2)回歸過后發現無法解釋的地方,如系數相反了、不顯著了……
極端值的處理方法:
(1)應檢查是否因數據輸入有誤導致極端觀測值。
(2)對極端觀測值的個體進行背景調查,看是否由與研究課
題無關的特殊現象所致,必要時可刪除極端數據。
(3)比較穩健的做法是同時匯報“全樣本”(full sample)與刪
除極端數據后的“子樣本”(subsample)的回歸結果,讓讀者自己
做判斷。
4. 其他問題
(1)缺失值
在進行分析時,軟件會會自動將缺失的觀測值從樣本中去掉,導致樣本容量損失。
回歸的時候需要特意看一下實際回歸分析的樣本數
(2)變量單位(數量級)的選擇
例:假如分析、年齡等收入(日元)對心理健康評分的影響。
影響:
(1)收入的系數會很小,保留小數時會出現系數為0的情況;
(2)數據矩陣X中某列的數值是另一列的很多倍,可能使計算機在對矩陣進行數值計算時出現較大誤差。
(3)自相關
可能存在自相關的情形
(1)時間序列數據
(2)空間自相關(如傳染病數據)
(3)對數據的人為處理:如果數據中包含移動平均數(moving
average)、內插值或季節調整時,可從理論上判斷存在自相關。
自相關的后果:同異方差
處理:見https://blog.csdn.net/dataxc/article/details/107047611
**參考:
陳強:《高級計量經濟學》
Robert I. Kabacoff ,高濤等:《R語言實戰》
其他互聯網資料https://blog.csdn.net/u013524655/article/details/41219283等
總結
以上是生活随笔為你收集整理的大样本OLS模型假设及R实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: web通信 长连接、长轮询
- 下一篇: PSFTP工具传输文件的命令使用方法