python爬空气污染实时数据_python数据分析综合项目--空气质量指数分析
項目背景
近年來,我國的環境問題比較嚴重,很多城市出現了霧霾天氣,當然也有很多城市空氣依舊清新,為了研究具體的空氣環境城市分布,我們采用了假設檢驗以及線性回歸的思想對AQI(空氣質量指數)進行分析和預測,其中AQI的值越大,表示空氣質量越差,AQI值越小,表明空氣質量越好。
提出問題
1.列出空氣質量優秀/較差的五個城市
2.全國空氣質量分布情況
3.臨海城市和內陸城市的空氣質量對比
4.影響空氣指數的因素
5.空氣質量均值驗證
數據字段描述
City 城市名
AQI 空氣質量指數
Precipitation 降雨量
GDP 城市生產總值
Temperature 溫度
Longitude 經度
Latitude 緯度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 綠化覆蓋率
Incineration(10,000ton) 焚燒量(10000噸)
導入相應的模塊以及數據集
數據處理
在進行數據分析之前,我們對數據集進行觀察并對其中的缺失值、重復值、異常值進行處理
處理缺失值
我們發現降雨量數據中包含了4個缺失值,為了保證數據的精確,我們查一下降雨量的數據分布
降雨量分布圖
很明顯的呈現右偏分布,因此采用平均數來替代缺失值并不妥,我們這里用中位數來代替
缺失值處理
異常值處理
最常用的異常值檢測方式為3倍標準差檢驗法,我們用此方法篩選出異常數據,并繪制對應的箱線圖
異常值檢測
GDP箱線圖
GDP屬性中檢測出8條異常值,我們這里采取用極端值替換的方式,將異常值替換成最大值
df['GDP'][(df['GDP']upper)]=df['GDP'].mean()+3*df['GDP'].std()
重復值處理
重復值處理比較簡單,篩選出來并刪除即可
df.drop_duplicates(inplace=True)
數據分析及可視化
數據集處理完畢之后,我們開始進行數據分析
1. 列出空氣質量優秀/較差的五個城市
按照AQI降序排列,選出排名前五以及后五的城市,進行可視化,結果如下
空氣質量好的五大城市
空氣質量堪憂的五個城市
結論:空氣質量較好的城市為韶關市、南平市、梅州市、基隆市、三明市,空氣質量堪憂的城市分別為焦作市、錦州市、保定市、朝陽市、北京市
2. 全國空氣質量分布情況
這里我們將AQI指數分為六個等級,并根據等級統計全國空氣質量的等級情況
全國空氣質量等級劃分圖
我們再用散點圖繪制下全國的空氣質量分布
地理分布圖
結論:我國城市的空氣質量集中在一級、二級和三級,高污染城市比例較低;從地理位置來看,西部城市空氣質量優于東部城市,南部城市優于北部城市。
3. 臨海城市和內陸城市的空氣質量對比
根據上面的結論我們發現,仿佛臨海城市的空氣質量普遍高于內陸地區,那么這個結論是否是真的呢?還需要進一步驗證。
首先,我們來統計下不同地理環境的城市數量
內陸、沿海城市數量
第二步,繪制臨海和內陸城市的AQI分布圖
AQI分布
我們發現內陸城市AQI集中分布在50-100區間內,而沿海城市AQI集中分布在0-50區間,在此樣本中,沿海的AQI分布低于內陸城市,但是這畢竟是樣本,無法推測出總體分布情況,還需進一步探測。
第三步,統計AQI均值并繪制分布密度圖
AQI均值
第四步,差異檢驗,查看內陸沿海AQI均值分布是否顯著
我們先假設內陸城市和沿海城市的平均值相同
t檢驗
結果得出支持的概率為0.006,遠低于0.05,因此我們否定原假設,選擇備擇假設,即內陸城市和沿海城市的平均值不相同
結論:經過分析,我們發現有超過99%的概率可以證明臨海城市空氣質量優于內陸城市的空氣質量。
4. 影響空氣指數的因素
為了探究影響空氣質量的具體因素,我們需要計算出兩個變量之間的相關系數,以此進行判斷,這里采用熱力圖進行可視化操作。
sns.heatmap(df.corr(),annot=True,fmt='.2f')
相關系數熱力圖
結論:從顯示結果看出,AQI主要受降雨量和緯度的影響,其中降雨量越多,空氣質量越好(0.4);緯度越低,空氣質量越好(-0.55)
當然,從整個圖片來看,也能發現很多變量之間的關系,比如GDP與焚燒量的正相關系數達到了0.9,溫度與緯度的負相關系數達到了-0.81等。
5. 空氣質量均值驗證
傳聞空氣質量均值在71左右,這個消息是否是準確的呢?我們進行一次驗證。
首先計算樣本的均值
df['AQI'].mean()
結果顯示為75.334
那么總體的均值是否為71呢?這里先假設總體的均值為71,進行t檢驗
驗證
結論:可以看出,偏離均值1.81倍的標準差,而且p值大于0.05,我們接受原假設(即空氣質量均值在71左右)另外,我們還可以計算出在置信度為95%時,空氣質量均值的置信區間為70-80。
總結
空氣質量最好的城市是韶關、南平和梅州,最差的是北京。
分布總體顯示,西部城市空氣質量優于東部城市,南部城市優于北部城市。
臨海城市空氣質量總體好于內陸城市。
降雨量和緯度對空氣質量影響較大。
我國平均空氣質量指數在70-80之間,概率達到95%
總結
以上是生活随笔為你收集整理的python爬空气污染实时数据_python数据分析综合项目--空气质量指数分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Pippo已经不能只用超级来形容了
- 下一篇: 否打开人工智能的“黑箱”?