日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大样本OLS模型假设及R实现

發(fā)布時(shí)間:2023/12/10 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大样本OLS模型假设及R实现 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大樣本OLS模型假設(shè)及R實(shí)現(xiàn)

  • 1. 回歸模型及假設(shè)
  • 2. 回歸模型的檢驗(yàn)及處理
    • 1. 異方差
    • 2. 多重共線性:
    • 3. 極端值:
    • 4. 其他問(wèn)題

1. 回歸模型及假設(shè)

1. 回歸模型:
見(jiàn) https://blog.csdn.net/dataxc/article/details/107047611

2. 大樣本OLS假設(shè)
(1)線性假設(shè)
(2) K +1維隨機(jī)過(guò)程{Yi,Xi1,Xi2,……,Xik}為漸近獨(dú)立的平穩(wěn)過(guò)程(即統(tǒng)計(jì)特性如期望、方差等不隨時(shí)間改變),故適用大數(shù)定律(頻率趨近于概率)與中心極限定理(樣本均值的分布趨近于正態(tài)分布)。
(3)所有解釋變量(自變量)均為“前定”(predetermined),也稱(chēng)“同期外生”
(contemporaneously exogenous),即它們與同期(同方程)的擾動(dòng)項(xiàng)正交,即Xik與Ei不相關(guān)。
(4)自變量Xi系數(shù)構(gòu)成的矩陣 X 滿(mǎn)列秩,即X 中沒(méi)有多余(可由其他變量線性表出)的解釋變量,即不存在嚴(yán)格多重共線性。

2. 回歸模型的檢驗(yàn)及處理

1. 異方差


1. 異方差的后果
(1) OLS 估計(jì)量依然無(wú)偏、一致且漸近正態(tài)。因?yàn)樵谧C明這些性質(zhì)時(shí),并未用到“同方差”的假定。
(2) OLS 估計(jì)量方差表達(dá)式不再是原表達(dá)式,t檢驗(yàn),F檢驗(yàn)失效;也就是說(shuō),你的得到的t值,F值錯(cuò)誤。

(3) 高斯-馬爾可夫定理不再成立,OLS 不再是 BLUE(最佳線性無(wú)偏估計(jì))。也就是得到的方程不是最佳的。

2. 異方差的檢驗(yàn)
(1)直觀法——繪制殘差圖
(2)R提供了非常多種檢驗(yàn)異方差的包。如,擴(kuò)展包lmtest中采用bptest()函數(shù);car包中采用ncv.test()函數(shù)

model1 <- lm( y ~ X1 + X2 + …… + Xn) # 構(gòu)建回歸模型 library(lmtest) bptest(model1) #bp檢驗(yàn) bptest(model1,studentize=FALSE) #不采用學(xué)生化殘差進(jìn)行修正

3. 異方差的處理
(1)使用OLS+穩(wěn)健標(biāo)準(zhǔn)誤。一般的,我們使用white一致標(biāo)準(zhǔn)誤來(lái)做假設(shè)檢驗(yàn)。 為了計(jì)算異方差一致性的協(xié)方差矩陣,我們可以利用car包中的hccm()函數(shù); sandwich包中的vcovHC()命令可以實(shí)現(xiàn)同樣的功能。同時(shí)利用vcovHAC()或者NeweyWest()函數(shù)可以進(jìn)行異方差和自相關(guān)穩(wěn)健性Newey—West估計(jì)。

library(sandwich) model1 <- lm( y ~ X1 + X2 + …… + Xn) summary (model1) NeweyWest(model1) result1 <- coeftest (model1, vcov = NeweyWest(model1)) print (result1) #計(jì)算穩(wěn)健標(biāo)準(zhǔn)誤 summary (model1)

(2)加權(quán)最小二乘法(WLS)、可行加權(quán)最小二乘法(FWLS)等

2. 多重共線性:

判斷:
(1)方差膨脹因子
一般標(biāo)準(zhǔn):
①當(dāng)0<VIF≤5時(shí),沒(méi)有多重共線性;
②當(dāng)5<VIF≤10時(shí),有較弱的多重共線性;
③當(dāng)10<VIF≤100時(shí),有中等或較強(qiáng)的多重共線性;
④當(dāng)VIF>100時(shí),有非常嚴(yán)重的多重共線性。
vif>=10時(shí) , 就說(shuō)明自變量Xi與其他變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會(huì)過(guò)度地影響最小二乘估計(jì)值。

data(swiss) head(TRUE) model1 <- lm(Fertility~ Agriculture + Examination + Education, data=swiss) summary(model1) library(car) vif(model1)

(2)特征根判定法
通常認(rèn)為條件數(shù)kappa;100k<100時(shí),設(shè)計(jì)矩陣XX多重共線性的程度很小;100≤k≤1000100≤k≤1000時(shí),設(shè)計(jì)矩陣XX存在較強(qiáng)的多重共線性;k>1000k>1000時(shí),存在嚴(yán)重的多重共線性。

data(swiss) head(TRUE) model1 <- lm(Fertility~ Agriculture + Examination + Education, data=swiss) kappa(model1,exact=TRUE)

根據(jù)條件數(shù)大于1000,說(shuō)明自變量之間存在嚴(yán)重的多重共線性。為找出哪些變量是多重共線性的,需要計(jì)算矩陣的特征值和相應(yīng)的特征向量,在R命令窗口下面代碼:

eigen(model1) #需要方陣才能判斷哪些變量存在多重共線性行?

(1)如在模型中引入解釋變量的平方項(xiàng)、過(guò)多交互項(xiàng),則易引起多重共線性,因?yàn)閄與X^2,較相關(guān)。
(2)在模型中加入啞變量也容易引起多重共線性,因啞變量之間較相關(guān)。

多重共線性處理方法:
(1)如不關(guān)心具體的回歸系數(shù),只關(guān)心整個(gè)方程的預(yù)測(cè)能力,可不必理會(huì)多重共線性(假設(shè)整個(gè)方程顯著)。多重共線性的主要后果是使得對(duì)單個(gè)變量的貢獻(xiàn)估計(jì)不準(zhǔn),但所有變量的整體效應(yīng)仍可較準(zhǔn)確地估計(jì)。
(2) 如關(guān)心具體的回歸系數(shù),但多重共線性并不影響所關(guān)心變量的顯著性,也可不必理會(huì)。在方差膨脹的情況下,系數(shù)依然顯著;如沒(méi)有多重共線性,只會(huì)更顯著。
(3)如多重共線性影響所關(guān)心變量的顯著性,應(yīng)設(shè)法進(jìn)行處理。比如,增大樣本容量,剔除導(dǎo)致嚴(yán)重共線性的變量,將變量標(biāo)準(zhǔn)化(詳見(jiàn)下文),或?qū)δP驮O(shè)定進(jìn)行修改。
(4)解釋變量之間的相關(guān)性普遍存在,在一定程度上也是允許的。處理多重共線性的最常見(jiàn)方法是“無(wú)為而治”(do nothing)。

3. 極端值:

判斷:
(1)繪制散點(diǎn)圖;
(2)outlierTest()等,如果p>0.05,可以認(rèn)為沒(méi)有離群點(diǎn);若p<0.05,則存在離群點(diǎn)。
(2)回歸過(guò)后發(fā)現(xiàn)無(wú)法解釋的地方,如系數(shù)相反了、不顯著了……
極端值的處理方法:
(1)應(yīng)檢查是否因數(shù)據(jù)輸入有誤導(dǎo)致極端觀測(cè)值。
(2)對(duì)極端觀測(cè)值的個(gè)體進(jìn)行背景調(diào)查,看是否由與研究課
題無(wú)關(guān)的特殊現(xiàn)象所致,必要時(shí)可刪除極端數(shù)據(jù)。
(3)比較穩(wěn)健的做法是同時(shí)匯報(bào)“全樣本”(full sample)與刪
除極端數(shù)據(jù)后的“子樣本”(subsample)的回歸結(jié)果,讓讀者自己
做判斷。

4. 其他問(wèn)題

(1)缺失值
在進(jìn)行分析時(shí),軟件會(huì)會(huì)自動(dòng)將缺失的觀測(cè)值從樣本中去掉,導(dǎo)致樣本容量損失。
回歸的時(shí)候需要特意看一下實(shí)際回歸分析的樣本數(shù)

(2)變量單位(數(shù)量級(jí))的選擇
例:假如分析、年齡等收入(日元)對(duì)心理健康評(píng)分的影響。
影響:
(1)收入的系數(shù)會(huì)很小,保留小數(shù)時(shí)會(huì)出現(xiàn)系數(shù)為0的情況;
(2)數(shù)據(jù)矩陣X中某列的數(shù)值是另一列的很多倍,可能使計(jì)算機(jī)在對(duì)矩陣進(jìn)行數(shù)值計(jì)算時(shí)出現(xiàn)較大誤差。

(3)自相關(guān)
可能存在自相關(guān)的情形
(1)時(shí)間序列數(shù)據(jù)
(2)空間自相關(guān)(如傳染病數(shù)據(jù))
(3)對(duì)數(shù)據(jù)的人為處理:如果數(shù)據(jù)中包含移動(dòng)平均數(shù)(moving
average)、內(nèi)插值或季節(jié)調(diào)整時(shí),可從理論上判斷存在自相關(guān)。
自相關(guān)的后果:同異方差
處理:見(jiàn)https://blog.csdn.net/dataxc/article/details/107047611

**參考:
陳強(qiáng):《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)》
Robert I. Kabacoff ,高濤等:《R語(yǔ)言實(shí)戰(zhàn)》
其他互聯(lián)網(wǎng)資料https://blog.csdn.net/u013524655/article/details/41219283等

總結(jié)

以上是生活随笔為你收集整理的大样本OLS模型假设及R实现的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。