多元统计分析主成分分析何晓群版课后作业
- 實驗?zāi)康?/strong>
在對某一事物進(jìn)行實證研究時,為了更全面、準(zhǔn)確地反映事物的特征及其發(fā)展規(guī)律,人們往往要考慮與其有關(guān)系的多個指標(biāo),這些指標(biāo)在多元統(tǒng)計中也稱為變量。這樣就產(chǎn)生了如下問題:???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo);另一方面考慮指標(biāo)的增多增加了問題的復(fù)雜性,同時由于各指標(biāo)均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時甚至?xí)谏w事物的真正特征與內(nèi)在規(guī)律。基于上述問題,人們希望在定量研究中涉及的變量較少而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。
?通過主成分分析,可以從事物之間錯綜復(fù)雜的關(guān)系中找出一些主要成分,從而有效和用大量統(tǒng)計數(shù)據(jù)進(jìn)行定量分析,揭示變量之間的內(nèi)在關(guān)系,得到對事物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入。
二、實驗內(nèi)容
為了研究新疆14個市農(nóng)業(yè)中產(chǎn)出與投入的關(guān)系,我們從新疆統(tǒng)計年鑒2012上收集到各市的糧食產(chǎn)量、農(nóng)業(yè)產(chǎn)值、棉花產(chǎn)量、農(nóng)業(yè)機(jī)械總動力、有效灌溉面積、化肥施用量的結(jié)構(gòu)相對數(shù)據(jù)來進(jìn)行主成分分析。
Y1:某市的糧食產(chǎn)量(公斤/公頃) ???????Y2:某市的農(nóng)業(yè)總產(chǎn)值(萬元)
Y3:某市的棉花產(chǎn)量(公斤/公頃) ???????Y4: 某市的農(nóng)業(yè)機(jī)械總動力(千瓦)
Y5: 某市的有效灌溉面積(千公頃) ???Y6:某市的化肥施用量(噸)
以下是2011年新疆各市糧食產(chǎn)量、農(nóng)業(yè)產(chǎn)值、棉花產(chǎn)量、農(nóng)業(yè)機(jī)械總動力、有效灌溉面積、化肥施用量數(shù)據(jù)。
| 地區(qū) | Y1 (公斤/公頃) | Y2(萬元) | Y3(公斤/公頃) | Y4(千瓦) | Y5(千公頃) | Y6(噸) |
| 烏魯木齊市 | 7601 | 163207 | 1300 | 307857 | 48.51 | 8961 |
| 克拉瑪依市 | 9431 | 37794 | 1574 | 30647 | 13.7 | 3578 |
| 吐魯番市 | 54464 | 232144 | 1350 | 213005 | 14.7 | 12499 |
| 哈密市 | 6062 | 162752 | 1864 | 186382 | 50.98 | 10245 |
| 昌吉市 | 7767 | 177833 | 1703 | 334624 | 92.51 | 31049 |
| 阜康市 | 7525 | 164771 | 3876 | 164272 | 44.21 | 9949 |
| 伊寧市 | 8556 | 70225 | 1071 | 81697 | 14.48 | 3856 |
| 奎屯市 | 50444 | 9483 | 1350 | 12140 | 4.68 | 3183 |
| 烏蘇市 | 10516 | 393238 | 1905 | 629989 | 87.78 | 31731 |
| 博樂市 | 13487 | 218380 | 2115 | 243985 | 53.2 | 19455 |
| 庫爾勒市 | 4571 | 407139 | 2010 | 471018 | 55.21 | 28889 |
| 阿克蘇市 | 7636 | 290012 | 1955 | 238993 | 62.53 | 59221 |
| 喀什市 | 6219 | 78051 | 1500 | 91933 | 13.44 | 5374 |
| 和田市 | 6485 | 142436 | 1530 | 77141 | 10.37 | 5781 |
三、實驗過程
1.將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
第1步:讀人數(shù)據(jù),輸出變量之間的相關(guān)性。結(jié)果顯示除?
正在上傳…重新上傳取消,與各變量的相關(guān)性不強(qiáng)
外,其他變量之間均存在較強(qiáng)的相關(guān)關(guān)系,因此原始數(shù)據(jù)適合做主成分分析。
ex5<-read.csv(file.choose(),head=TRUE)##選擇文件中的數(shù)據(jù)賦值給ex5
dat5<-ex5[,-1]##去掉ex5中的第一列
rownames(dat5)<-ex5[,1]##確定行名
dat5<-scale(dat5,center=TRUE,scale=TRUE)##將數(shù)據(jù)標(biāo)準(zhǔn)化
sigm<-cov(dat5)##求協(xié)方差陣(cor(dat5)是求相關(guān)系數(shù)陣)
z<-print(sigm,digits=3)##輸出協(xié)方差陣
write.csv(z,"1.csv")##
表1
| x1 | x2 | x3 | x4 | x5 | x6 | |
| x1 | 1.000 | -0.198 | -0.272 | -0.238 | -0.419 | -0.220 |
| x2 | -0.198 | 1.000 | 0.268 | 0.896 | 0.688 | 0.721 |
| x3 | -0.272 | 0.268 | 1.000 | 0.165 | 0.329 | 0.188 |
| x4 | -0.238 | 0.896 | 0.165 | 1.000 | 0.823 | 0.602 |
| x5 | -0.419 | 0.688 | 0.329 | 0.823 | 1.000 | 0.723 |
| x6 | -0.220 | 0.721 | 0.188 | 0.602 | 0.723 | 1.000 |
第2步:計算特征值。結(jié)果可以看到,本例保留了前四個個主成分,它們解釋了全部變量總方差的?81.594%,說明這?三個主成分代表原來的六個指標(biāo)研究新疆14個市農(nóng)業(yè)中產(chǎn)出與投入的關(guān)系已經(jīng)足夠。
my5<-eigen(sigm)##求特征值
lam<-my5$values##提取特征值
p<-length(lam)##特征值的長度賦值給p
cumlam<-cumsum(lam)/sum(lam)##求出貢獻(xiàn)率賦值給cumlam
VE<-data.frame(lam,lam/sum(lam),cumlam)##求出累計貢獻(xiàn)率
colnames(VE)<-c("特征值","比例","累計比例")##確定列名
n<-print(VE,digits=5)##輸出列表并保留五位小數(shù)
write.csv(n,"2.csv")
表2
| 特征值 | 比例 | 累計比例 | |
| 1 | 3.466 | 0.578 | 0.578 |
| 2 | 1.081 | 0.180 | 0.758 |
| 3 | 0.743 | 0.124 | 0.882 |
| 4 | 0.426 | 0.071 | 0.953 |
| 5 | 0.266 | 0.044 | 0.997 |
| 6 | 0.018 | 0.003 | 1.000 |
第3步:計算特征向量和因子負(fù)荷量。四個主成分的線性表達(dá)式如下:
gam<-my5$vectors##求特征向量
colnames(gam)<-paste("vec",sep="",1:p)##確定列名
m<-print(gam[,1:4],digits=4)##輸出列表,并保留小數(shù)點后位
write.csv(m,"3.csv")
表3
| vec1 | vec2 | vec3 | |
| 1 | 0.2313 | 0.6477 | -0.6804 |
| 2 | -0.4828 | 0.2252 | -0.1454 |
| 3 | -0.2094 | -0.6607 | -0.7110 |
| 4 | -0.4834 | 0.2413 | 0.0324 |
| 5 | -0.4921 | -0.0363 | 0.0966 |
| 6 | -0.4401 | 0.1835 | -0.0033 |
lam_ma<-matrix(lam,p,p,byrow=TRUE)##將列表轉(zhuǎn)化為矩陣
sigmai<-(diag(sigm))^0.5
gamsla<-gam*sqrt(lam_ma)##特征向量##的算數(shù)平方根
load<-gamsla/sigmai##特征根/特征向量
colnames(load)<-paste("load",sep="",1:p)##確定行名
b<-print(load[,1:4],digits=4)##輸出列表,并保留小數(shù)點后四位
write.csv(b,"4.csv")
表4
| load1 | load2 | load3 | |
| 1 | 0.4307 | 0.6735 | -0.5865 |
| 2 | -0.8988 | 0.2342 | -0.1253 |
| 3 | -0.3899 | -0.6870 | -0.6130 |
| 4 | -0.8999 | 0.2509 | 0.0279 |
| 5 | -0.9162 | -0.0378 | 0.0832 |
| 6 | -0.8192 | 0.1908 | -0.0029 |
第4步:進(jìn)一步分析主成分。有三個主成分。 做空間直角坐標(biāo)系。得到各樣品的分布情況,然后可以對樣品進(jìn)行分類。將標(biāo)準(zhǔn)化后的原始數(shù)據(jù)代人三個主成分的線性表達(dá)式,計算各樣品的三個主成分得分。
library(scatterplot3d)##調(diào)用這個函數(shù)
y1<-dat5%*%as.matrix(gam[,1],p,1)##第一主成分
y2<-dat5%*%as.matrix(gam[,2],p,1)##第二主成分
y3<-dat5%*%as.matrix(gam[,3],p,1)##第三主成分
scatterplot3d(y1,y2,y3,pch="+",xlab="第一主成分",ylab="第二主成分",zlab="第三主成分")##畫空間直角坐標(biāo)系的圖
?
圖1
2.【例5-3】試?yán)弥鞒煞志C合評價全國各地水泥制造業(yè)規(guī)模以上企業(yè)的經(jīng)濟(jì)效益,原始數(shù)據(jù)來源于2014年《中國水泥年鑒》
表1 ?2013年各地區(qū)水泥制造業(yè)規(guī)模以上企業(yè)的主要經(jīng)濟(jì)指標(biāo)
| X1 | 企業(yè)單位數(shù)(個) | X5 | 主營業(yè)務(wù)收入(億元) | |||||||
| X2 | 流動資產(chǎn)合計(億元) | X6 | 利潤總額(億元) | |||||||
| X3 | 資產(chǎn)總額(億元) | X7 | 銷售利潤率(%) | |||||||
| X4 | 負(fù)債總額(億元) | |||||||||
| 地區(qū) | x1 | x2 | x3 | x4 | x5 | x6 | x7 | |||
| 北京 | 8 | 17.6 | 43.8 | 17.8 | 26.6 | -1.4 | -5.2 | |||
| 天津 | 24 | 43.8 | 91.7 | 33.7 | 35.9 | 1.5 | 4.1 | |||
| 河北 | 231 | 281.4 | 993.8 | 647 | 565.1 | 22.7 | 4 | |||
| 山西 | 113 | 103.4 | 317.4 | 238.5 | 124 | -2.1 | -1.7 | |||
| 內(nèi)蒙古 | 116 | 135.9 | 384.4 | 256.8 | 245.8 | 11.9 | 4.8 | |||
| 遼寧 | 151 | 151.4 | 417.6 | 247.9 | 350.3 | 23 | 6.6 | |||
| 吉林 | 69 | 333.7 | 627.7 | 415.2 | 539.8 | 25.4 | 4.7 | |||
| 黑龍江 | 96 | 142.1 | 331.6 | 234.7 | 183.2 | 13.5 | 7.4 | |||
| 上海 | 14 | 21.5 | 28.3 | 12.6 | 31.6 | 1.2 | 4 | |||
| 江蘇 | 254 | 300.3 | 680 | 435.7 | 713.3 | 62.6 | 8.8 | |||
| 浙江 | 192 | 259.8 | 561.9 | 300.1 | 473.9 | 42.1 | 8.9 | |||
| 安徽 | 169 | 217.2 | 591.9 | 305.2 | 518.8 | 64.9 | 12.5 | |||
| 福建 | 111 | 93.2 | 276.4 | 163.9 | 284.8 | 11.2 | 3.9 | |||
| 江西 | 138 | 143.8 | 398.1 | 208.4 | 400.3 | 47.5 | 11.9 | |||
| 山東 | 295 | 351.8 | 792.7 | 412.5 | 878.3 | 80.3 | 9.1 | |||
| 河南 | 238 | 388.5 | 804.2 | 475.2 | 673.7 | 58.3 | 8.7 | |||
| 湖北 | 151 | 193 | 619.7 | 360.7 | 570.5 | 49.1 | 8.6 | |||
| 湖南 | 220 | 86.4 | 398.8 | 212.3 | 434.1 | 33.6 | 7.7 | |||
| 廣東 | 204 | 217 | 592.1 | 345.3 | 474.3 | 40.5 | 8.5 | |||
| 廣西 | 148 | 116 | 387.2 | 178.7 | 344 | 49.6 | 14.4 | |||
| 海南 | 15 | 53.1 | 102.1 | 52.9 | 80.7 | 5.6 | 6.9 | |||
| 重慶 | 78 | 158.3 | 419.8 | 294.1 | 185.1 | 8.4 | 4.5 | |||
| 四川 | 196 | 218.2 | 739.1 | 433.3 | 465.2 | 37.1 | 8 | |||
| 貴州 | 133 | 91.5 | 367.5 | 244.2 | 224.7 | 28.2 | 12.6 | |||
| 云南 | 149 | 134.2 | 434.7 | 290.2 | 251 | 11.3 | 4.5 | |||
| 西藏 | 10 | 11.3 | 26.5 | 5.4 | 17.4 | 4.1 | 23.7 | |||
| 陜西 | 116 | 82.2 | 312.6 | 203.8 | 253.2 | 14.4 | 5.7 | |||
| 甘肅 | 68 | 61.8 | 213.2 | 126.8 | 124.3 | 13.3 | 10.7 | |||
| 青海 | 20 | 39.5 | 152.7 | 123.1 | 44.4 | 3 | 6.7 | |||
| 寧夏 | 27 | 36.1 | 90.1 | 49.2 | 45.1 | 3.4 | 7.4 | |||
| 新疆 | 86 | 220.6 | 602.7 | 353.4 | 136.1 | 1.5 | 1.1 | |||
三、實驗過程
1.將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
第1步:讀人數(shù)據(jù),輸出變量之間的相關(guān)性。結(jié)果顯示除?
外,其他變量之間均存在較強(qiáng)的相關(guān)關(guān)系,因此原始數(shù)據(jù)適合做主成分分析。
ex5.3<-read.csv(file.choose(),head=TRUE)##選擇文件中的數(shù)據(jù)賦值給ex5.3
dat53<-ex5.3[,-1]##去掉ex5.3中的第一列
rownames(dat53)<-ex5.3[,1]##確定行名
dat53<-scale(dat53,center=TRUE,scale=TRUE)##將數(shù)據(jù)標(biāo)準(zhǔn)化
sigm<-cov(dat53)##求協(xié)方差陣(cor(dat53)是求相關(guān)系數(shù)陣)
print(sigm,digits=3)##輸出協(xié)方差陣
表 1
| x1 | x2 | x3 | x4 | x5 | x6 | x7 | |
| x1 | 1.0000 | 0.7629 | 0.8518 | 0.7950 | 0.9020 | 0.8213 | 0.1570 |
| x2 | 0.7629 | 1.0000 | 0.9234 | 0.8967 | 0.8809 | 0.7155 | 0.0248 |
| x3 | 0.8518 | 0.9234 | 1.0000 | 0.9809 | 0.8750 | 0.6945 | 0.0252 |
| x4 | 0.7950 | 0.8967 | 0.9809 | 1.0000 | 0.8102 | 0.5818 | -0.0506 |
| x5 | 0.9020 | 0.8809 | 0.8750 | 0.8102 | 1.0000 | 0.9032 | 0.1884 |
| x6 | 0.8213 | 0.7155 | 0.6945 | 0.5818 | 0.9032 | 1.0000 | 0.4282 |
| x7 | 0.1570 | 0.0248 | 0.0252 | -0.0506 | 0.1884 | 0.4282 | 1.0000 |
第2步:計算特征值。結(jié)果可以看到,本例保留了前兩個主成分,它們解釋了全部變量總方差的?91.036%,說明這?2?個主成分代表原來的7個指標(biāo)評價企業(yè)的經(jīng)濟(jì)效益已經(jīng)足夠。
my53<-eigen(sigm)##求特征值
lam<-my53$values##提取特征值
p<-length(lam)##特征值的長度賦值給p
cumlam<-cumsum(lam)/sum(lam)求出貢獻(xiàn)率賦值給cumlam
VE<-data.frame(lam,lam/sum(lam),cumlam)##求出累計貢獻(xiàn)率
colnames(VE)<-c("特征值","比例","累計比例")##確定列名
print(VE,digits=5)##輸出列表并保留五位小數(shù)
表 2
| 特征值 | 比例 | 累計比例 | |
| 1 | 5.16339 | 0.73763 | 0.73763 |
| 2 | 1.20914 | 0.17273 | 0.91036 |
| 3 | 0.34189 | 0.04884 | 0.95920 |
| 4 | 0.19479 | 0.02783 | 0.98703 |
| 5 | 0.04906 | 0.00701 | 0.99404 |
| 6 | 0.03415 | 0.00488 | 0.99892 |
| 7 | 0.00757 | 0.00108 | 1.00000 |
第3步:計算特征向量和因子負(fù)荷量。兩個主成分的線性表達(dá)式如下:
??主成分的經(jīng)濟(jì)意義由各線性組合中系數(shù)較大的幾個指標(biāo)的綜合意義來確定。主成分巧中,除銷售利潤率的系數(shù)較小外,其他變量的系數(shù)大小相當(dāng),因此主成分?Y,綜合反映水泥企業(yè)的整體規(guī)模和收入水平。主成分Y5中,變量利潤總額和銷售利潤率的系數(shù)較大,后者的系數(shù)最大,其他變量的系數(shù)較小,因此主成分?Y。主要反映企業(yè)的盈利能力。這兩個主成分從企業(yè)規(guī)模和企業(yè)盈利能力兩個方面刻畫企業(yè)經(jīng)濟(jì)效益,用它們來考核企業(yè)經(jīng)濟(jì)效益有?91.036%的可靠性。
gam<-my53$vectors##求特征向量
colnames(gam)<-paste("vec",sep="",1:p)##確定列名
print(gam[,1:2],digits=4)##輸出列表,并保留小數(shù)點后位
表3
| vec1 | vec2 | |
| 1 | -0.40708 | 0.04364 |
| 2 | -0.40956 | -0.15500 |
| 3 | -0.42124 | -0.17831 |
| 4 | -0.39992 | -0.26946 |
| 5 | -0.42630 | 0.07045 |
| 6 | -0.37688 | 0.35951 |
| 7 | -0.07354 | 0.85759 |
lam_ma<-matrix(lam,p,p,byrow=TRUE)##將列表轉(zhuǎn)化為矩陣
sigmai<-(diag(sigm))^0.5
gamsla<-gam*sqrt(lam_ma)##特征向量##的算數(shù)平方根
load<-gamsla/sigmai##特征根/特征向量
colnames(load)<-paste("load",sep="",1:p)##確定行名
print(load[,1:2],digits=4)##輸出列表,并保留小數(shù)點后四位
表 4
| load1 | load2 | |
| 1 | -0.92500 | 0.04799 |
| 2 | -0.93064 | -0.17044 |
| 3 | -0.95720 | -0.19607 |
| 4 | -0.90873 | -0.29630 |
| 5 | -0.96868 | 0.07747 |
| 6 | -0.85638 | 0.39532 |
| 7 | -0.16709 | 0.94301 |
第4步:進(jìn)一步分析主成分。當(dāng)主成分有兩個時,將各樣品的主成分得分在平面直角坐標(biāo)系上描出來,就可得到各樣品的分布情況,然后可以對樣品進(jìn)行分類。將標(biāo)準(zhǔn)化后的原始數(shù)據(jù)代人兩個主成分的線性表達(dá)式,計算各樣品的兩個主成分得分。現(xiàn)將各樣品的主成分得分在平面直角坐標(biāo)系上描出來(使用R軟件畫散點圖并添加輔助線),結(jié)果如圖5-5所示。
y1<-dat53%*%as.matrix(gam[,1],p,1)##第一主成分
y2<-dat53%*%as.matrix(gam[,2],p,1)##第二主成分
plot(y1,y2,pch="+",xlab="第一主成分",ylab="第二主成分")#3花出圖表
abline(h=0,lty=2)
abline(v=0,lty=2)
text(y1,y2,ex5.3[,1],adj=-0.05)##注明每個點的名字
?
正在上傳…重新上傳取消
圖 1
???
由圖?1可知,分布在第一象限的地區(qū)是廣西、江西、安徽、湖南、浙江、廣東、湖北江蘇和山東,說明這些省區(qū)的規(guī)模以上的水泥企業(yè)的經(jīng)濟(jì)效益較好,企業(yè)整體規(guī)模大且收人高,盈利能力強(qiáng);分布在第三象限的地區(qū)是黑龍江、陜西、福建、云南、重慶、山西新疆、上海、天津、北京,說明這些地區(qū)的規(guī)模以上的水泥企業(yè)的經(jīng)濟(jì)效益較差,企業(yè)能體規(guī)模小且盈利能力弱,尤其是北京地區(qū)的水泥企業(yè)的經(jīng)濟(jì)效益最差,主要是由于北京地區(qū)較大規(guī)模的水泥企業(yè)比較少。
???雖然可以根據(jù)各地區(qū)的主成分得分對各地區(qū)規(guī)模以上工業(yè)企業(yè)的經(jīng)濟(jì)效益或規(guī)模以上水泥企業(yè)的經(jīng)濟(jì)效益進(jìn)行比較分析或分類研究,但因為此處主成分的意義并不十分明朗,我們把更深入的分析放到下一章,以期得到更合理、更容易解釋的結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的多元统计分析主成分分析何晓群版课后作业的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python autoit上传文件_结合
- 下一篇: VUE $SET源码