全国113个城市空气质量的K均值聚类分析--基于R
? ? ? 下表給出了2017年全國113個(gè)環(huán)保重點(diǎn)城市空氣質(zhì)量年度數(shù)據(jù)(資料來源:中華人們共和國國家統(tǒng)計(jì)局)。它們分別為:二氧化硫平均濃度(微克每立方米,),二氧化氮平均濃度(微克每立方米,);可吸入顆粒物(PM10)年平均濃度(微克每立方米,);一氧化氮日均值第95百分位濃度(毫克每立方米,);臭氧(O3)日最大八小時(shí)第90百分位濃度(微克每立方米,);細(xì)顆粒物(PM2.5)年平均濃度(微克每立方米,);空氣質(zhì)量達(dá)到極好于二級(jí)的天數(shù)(天,)。
表格過長(zhǎng),這里只顯示部分
? ? ? K均值聚類法是一種快速動(dòng)態(tài)聚類方法,它改進(jìn)了系統(tǒng)聚類每一步都要計(jì)算類間距離,計(jì)算比較浪費(fèi)時(shí)間的缺點(diǎn)。其基本思想是,根據(jù)給定的參數(shù)k,先把n個(gè)對(duì)象粗略的分為k類,然后按照某種最優(yōu)準(zhǔn)則(通常為一個(gè)準(zhǔn)則函數(shù))修改不合理的分類,知道準(zhǔn)則函數(shù)收斂為止,就得到了一個(gè)最終的分類結(jié)果。
? ? ? 下面根據(jù)這個(gè)數(shù)據(jù)對(duì)這113個(gè)城市進(jìn)行K均值聚類分析(我們?cè)O(shè)置聚類數(shù)為4)?,R程序如下:
ex4.3<-read.csv("ex4.3.csv",header = T) d4.3=ex4.3[,-1] #ex4.3.csv的第一列為城市名稱,先去掉 rownames(d4.3)=ex4.3[,1] #用ex4.3的第一列為d4.3的行重新命名 KM<-kmeans(d4.3,4,nstart = 20,algorithm = "Hartigan-Wong") #聚類個(gè)數(shù)為4#初始隨機(jī)集合個(gè)數(shù)為20,算法為"Hartigan-Wong"默認(rèn)#其他備選算法為"Lloyd","Forgy","MacQueen" KM? ? ? ?運(yùn)行結(jié)果如下:
? ? ? ? 其中,size表示各類的個(gè)數(shù),113個(gè)城市被聚成大小為38、28、22、25的四個(gè)類;means表示各類的均值,Clustering vector表示按照地區(qū)原順序聚類后的分類情況及類間平方和在總平方和的占比(這里為85.1%,越大越好)。
? ? ? ? 對(duì)分類結(jié)果進(jìn)行排序并且查看分類情況:
? ? ? ?按照排序后的分類結(jié)果,113個(gè)地區(qū)被分為四類:
第一類:秦皇島 ? ? 大同 ? ? 包頭 ? ? 大連 ? ? 鞍山 ? ? 撫順 ? ? 長(zhǎng)春 ? ? 吉林 ? 哈爾濱 ? ? 上海 ? ? 南京
蘇州 ? ? 南通 ? 連云港 ? ? 杭州 ? ? 寧波 ? ? 紹興 ? ? 南昌 ? ? 九江 ? ? 青島 ? ? 煙臺(tái) ? ? 日照? ?武漢 ? ? 宜昌 ? 荊州 ? ? 長(zhǎng)沙 ? ? 株洲 ? ? 湘潭 ? ? 岳陽 ? ? 常德 ? ? 廣州 ? ? 重慶 ? ? 瀘州? ?綿陽 ? ? 南充 ? ? 宜賓 ? ? 延安 ? 西寧
第二類:石家莊 ? ? 唐山 ? ? 邯鄲 ? ? 保定 ? ? 太原 ? ? 陽泉? ?長(zhǎng)治 ? ? 臨汾 ? ? 徐州 ? ? 濟(jì)南 ? ? 淄博 ? ? 棗莊 ? ? 泰安 ? ? 鄭州 ? ? 開封 ? ? 洛陽 ? 平頂山?安陽 ? ? 焦作 ? ? 西安 ? ? 咸陽 ? ? 渭南
第三類:?北京 ? ? 天津 呼和浩特 ? ? 沈陽 ? ? 錦州 ? ? 無錫? ?常州 ? ? 揚(yáng)州 ? ? 鎮(zhèn)江 ? ? 湖州 ? ? 合肥 ? ? 蕪湖 ? 馬鞍山 ? ? 濰坊 ? ? 濟(jì)寧 ? 三門峽 ? ? 成都? 自貢 ? ? 德陽 ? ? 銅川 ? ? 寶雞 ? ? 蘭州 ? ? 銀川 ? 石嘴山 烏魯木齊?
第四類:赤峰 ? ? 本溪 齊齊哈爾??牡丹江 ? ? 溫州 ? ? 福州 ? ? 廈門 ? ? 泉州 ? 張家界 ? ? 韶關(guān) ? ? 深圳 ? ? 珠海 ? ? 汕頭 ? ? 湛江??南寧 ? ? 柳州 ? ? 桂林 ? ? 北海 ? ? 海口 ? 攀枝花 ? ? 貴陽 ? ? 遵義 ? ? 昆明 ? ? 曲靖 ? 玉溪? ?拉薩 ? ? 金昌 克拉瑪依??
附錄
ex4.3<-read.csv("ex4.3.csv",header = T) d4.3=ex4.3[,-1] #ex4.3.csv的第一列為城市名稱,先去掉 rownames(d4.3)=ex4.3[,1] #用ex4.3的第一列為d4.3的行重新命名 KM<-kmeans(d4.3,4,nstart = 20,algorithm = "Hartigan-Wong") #聚類個(gè)數(shù)為4#初始隨機(jī)集合個(gè)數(shù)為20,算法為"Hartigan-Wong"默認(rèn)#其他備選算法為"Lloyd","Forgy","MacQueen" KM sort(KM$cluster) #對(duì)分類結(jié)果進(jìn)行排序并且查看分類情況數(shù)據(jù)
x1 x2 x3 x4 x5 x6 x7 北京 8 46 84 2.1 193 58 226 天津 16 50 94 2.8 192 62 209 石家莊 33 54 154 3.6 201 86 151 唐山 40 59 119 3.8 205 66 205 秦皇島 26 49 82 2.9 170 44 268 邯鄲 36 51 154 3.4 195 86 142 保定 29 50 135 3.6 218 84 159 太原 54 54 131 2.5 185 65 176 大同 44 32 73 3 154 36 301 陽泉 49 48 116 2.5 198 61 193 長(zhǎng)治 43 41 103 3.1 188 60 195 臨汾 79 37 122 4.1 214 79 128 呼和浩特 29 45 95 2.8 167 43 255 包頭 28 42 93 2.7 159 44 277 赤峰 23 20 70 2.3 133 34 318 沈陽 37 40 85 1.9 166 50 256 大連 17 28 58 1.4 163 34 300 鞍山 30 36 85 2.4 158 48 263 撫順 24 34 81 1.7 144 47 275 本溪 27 31 71 2.3 116 40 318 錦州 45 38 78 2 172 48 255 長(zhǎng)春 26 40 78 1.9 142 46 276 吉林 18 29 79 1.8 147 52 259 哈爾濱 25 44 84 2 133 58 271 齊齊哈爾 22 22 65 1.5 112 38 319 牡丹江 10 26 65 1.3 105 36 329 上海 12 44 55 1.2 181 39 275 南京 16 47 76 1.5 179 40 264 無錫 13 46 77 1.6 184 44 247 徐州 22 44 119 1.7 187 66 176 常州 18 45 76 1.5 184 48 249 蘇州 14 48 64 1.4 173 42 261 南通 21 38 64 1.4 179 39 266 連云港 18 33 73 1.5 153 45 289 揚(yáng)州 18 40 93 1.4 192 54 228 鎮(zhèn)江 15 43 88 1.2 182 55 232 杭州 11 45 72 1.3 173 45 271 寧波 10 38 60 1.1 158 37 311 溫州 12 41 65 1 145 38 329 湖州 15 38 64 1.3 187 42 250 紹興 12 35 70 1.2 170 45 275 合肥 12 52 80 1.4 170 56 224 蕪湖 15 49 82 1.6 177 49 249 馬鞍山 17 39 83 1.8 188 50 238 福州 6 29 51 0.9 141 27 349 廈門 11 32 48 0.8 117 27 362 泉州 12 28 53 0.9 148 28 345 南昌 15 37 76 1.6 148 41 300 九江 20 29 70 1.2 148 48 287 濟(jì)南 25 48 128 2.1 193 65 181 青島 15 38 78 1.3 166 39 283 淄博 41 47 120 2.8 194 65 188 棗莊 30 28 125 1.4 175 63 192 煙臺(tái) 18 33 68 1.6 163 35 294 濰坊 25 35 116 1.8 186 59 210 濟(jì)寧 26 41 106 1.9 200 56 217 泰安 25 39 97 1.9 213 58 197 日照 15 37 85 1.4 158 47 273 鄭州 21 54 118 2.2 199 66 166 開封 20 39 103 2.2 182 62 188 洛陽 25 42 117 2.4 204 69 166 平頂山 24 40 106 2.1 180 63 185 安陽 31 50 132 4.1 210 79 154 焦作 25 44 125 3.1 208 73 168 三門峽 22 41 98 2.1 181 57 217 武漢 10 50 85 1.6 151 52 255 宜昌 12 35 88 1.7 137 58 258 荊州 18 36 92 1.7 140 56 273 長(zhǎng)沙 13 40 69 1.3 153 52 262 株洲 19 36 81 1.4 142 52 272 湘潭 20 37 80 1.3 142 51 267 岳陽 14 25 70 1.4 142 49 305 常德 12 22 77 1.8 147 54 275 張家界 8 22 67 1.9 129 42 324 廣州 12 52 56 1.2 162 35 294 韶關(guān) 17 29 52 1.4 152 38 326 深圳 8 30 45 1 147 28 343 珠海 7 32 43 1 160 30 322 汕頭 12 21 49 1.1 140 29 353 湛江 10 15 42 1.1 153 29 327 南寧 11 35 56 1.4 119 35 337 柳州 19 26 66 1.5 127 45 308 桂林 15 25 60 1.3 139 44 308 北海 9 13 45 1.4 138 28 336 海口 6 12 37 0.8 127 20 352 重慶 12 46 72 1.4 163 45 277 成都 11 53 88 1.7 171 56 235 自貢 15 37 89 1.6 150 66 227 攀枝花 35 36 67 2.7 119 34 359 瀘州 17 35 80 1 147 53 273 德陽 9 30 84 1.3 166 51 247 綿陽 9 32 71 1.4 134 48 295 南充 12 34 72 1.3 150 46 289 宜賓 18 34 80 1.7 146 57 261 貴陽 13 27 53 1.1 121 32 347 遵義 12 28 54 1.1 109 33 344 昆明 15 32 58 1.2 124 28 360 曲靖 18 23 54 1.4 126 28 357 玉溪 16 22 47 1.9 125 23 362 拉薩 8 23 54 1.1 128 20 361 西安 19 59 126 2.8 185 73 180 銅川 20 35 91 2.2 165 52 242 寶雞 12 41 102 2.1 155 58 247 咸陽 21 54 132 2.4 201 79 154 渭南 18 56 129 2.3 183 70 165 延安 32 52 90 3 146 42 313 蘭州 20 57 111 2.8 161 49 232 金昌 27 16 74 1 138 24 322 西寧 24 40 83 2.8 136 34 294 銀川 48 42 106 2.5 169 48 232 石嘴山 55 32 97 2 162 43 243 烏魯木齊 13 49 105 3.4 122 70 241 克拉瑪依 8 23 69 1.6 131 34 318總結(jié)
以上是生活随笔為你收集整理的全国113个城市空气质量的K均值聚类分析--基于R的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 30行代码爬取英雄联盟端游英雄皮肤图片
- 下一篇: 网站概括