基于主动学习和克里金插值的空气质量推测
基于主動學習和克里金插值的空氣質量推測
常慧娟,?於志文,?於志勇,?安琦,?郭斌
西北工業大學計算機學院,陜西 西安 710072?福州大學數學與計算機科學學院,福建 福州 350108?
?
摘要:空氣質量監測站僅能在少數位置部署,故而無法獲取城市中每個位置的空氣質量信息。提出了一種基于主動學習和克里金插值的空氣質量推測算法。該算法首先選用克里金插值作為基礎的空氣質量推測算法,然后結合主動學習的思想,對置信度最大的位置進行優先采樣,最終建立基于主動學習的插值模型,通過最少的監測點對空氣質量進行采樣,最大限度地提升推測其他位置空氣質量的準確度。研究結果表明,所提算法能夠有效地提高空氣質量推測精度,同時減少監測站采樣數量,降低部署成本。
關鍵詞:克里金插值 ; 空氣質量指數 ; 主動學習 ; 空間插值 ; 空氣質量推測
論文引用格式:
常慧娟,?於志文,?於志勇,?安琦,?郭斌.?基于主動學習和克里金插值的空氣質量推測. 大數據[J], 2018, 4(6):54-64CHANG H J, YU Z W, YU Z Y, AN Q, GUO B.?Air quality estimation based on active learning and Kriging interpolation. Big data research[J],2018,4(6):54-64
1 引言
隨著社會經濟的發展和人民生活水平的提高,空氣質量越來越被大家所關注。空氣一直是維護人類及生物生存的保護膜,對人類及生物生存起著重要作用。但隨著工業及交通運輸業的不斷發展,大量的有害物質被排放到空氣中,空氣質量每況愈下,由其導致的酸雨和全球變暖問題都在破壞著人類的自然環境和生態系統。在循環經濟、綠色經濟、經濟與環境可持續發展的趨勢下,為了了解空氣污染變化趨勢,掌握及時、準確、全面的空氣質量信息,需要對空氣質量進行精準預測,準確獲取城市中每個位置的空氣質量成為一項必不可少的研究工作,可為監控空氣污染狀況、制定治理措施提供依據。但由于空氣質量監測站需占用大量空間且成本高昂,僅能在少數位置部署,因此選取哪些位置對空氣質量進行采樣,從而最大限度地推測其他位置的空氣質量,是一項具有挑戰的工作。基于空氣質量數據不足的情況,本文選用克里金(Kriging)插值并結合主動學習的思想,提出用于空氣質量指數 推測的Kriging模型。
目前,對同一地區的未來某時的空 氣質量指數以及污染物濃度預測已經有很多研究工作了,然而對同一時刻,指定地區的空氣質量推測還沒有很好的探索。空氣質量具有空間自相關性,因此一個簡單的方法是使用Kriging模型進行空間插值預測。在用Kriging方法建模的過程中,標記樣本數量的多少直接關系到模型的精度,當標記樣本較少時,通常難以構建可靠的模型。在傳統的監督學習環境中,應該提供大量的訓練樣例來構建具有良好泛化能力的模型。需要指出的是,這些訓練樣例應該加上標簽,而在許多實際的機器學習和數據挖掘應用中,通常只有少數標記訓練示例是可用的,在實際應用中,空氣質量監測站占用了大量的空間且成本高昂,對于大多數位置而言,并沒有任何空氣質量數據。為了提高預測精度,提出一種基于主動學習的Kriging(active-learning Kriging,ALK)插值方法,用于推測給定的任意位置的空氣質量指數。本文的主要工作如下:
● 提高對給定的任意位置的空氣質量指數預測的準確度;
● 提出了一個基于主動學習的Kriging插值模型,該模型通過選取少數位置對空氣質量進行采樣,能最大限度地提升推測其他位置的空氣質量的準確度;
● 使用我國43個城市的數據來評估提出的模型,實驗結果驗證了本文預測框架的通用性和有效性,并提高了預測精度。
2 相關工作
目前,一些關于分析和預測空氣質量的研究工作已達到對大氣環境質量進行預測預警的作用。這些研究工作采用了不同的方法對空氣質量進行預測。在環境科學方面,現有的空氣質量預測方法通常基于經典的離散模型,如高斯煙羽(Gaussian plume)模型、與監管街道峽谷相關的模型(operational street canyon模型)和計算流體動力學(computational fluid dynamics)模型。近年來,一些統計模型(如線性回歸模型、回歸樹模型和神經網絡模型)已被應用于大氣科學,實時預測空氣質量。宋宇辰等人和祝翠玲等人運用時間序列法和反向傳播(back propagation,BP)神經網絡法建立模型,預測空氣質量,對SO2、NO2和可吸入顆粒物的濃度值進行預測與分析;鄭宇等人使用數據驅動的方法預測未來48 h的空氣質量監測站的讀數,該數據驅動的方法考慮了當前的氣象數據、天氣預報、監測站空氣質量數據以及該監測站周圍幾百公里其他監測站的空氣質量數據;林開春等人和孟倩提出基于隨機森林的空氣質量指數預測模型和空氣質量等級分類預測方法。蘇靜等人和楊錦偉等人應用灰色理論模型預測空氣質量變化趨勢,對未來10年的污染因子濃度進行了預測;閆妍等人提出了一種基于神經網絡的環境空氣質量的預測方法,他們運用BP人工神經網絡的多層神經網絡對西安市大氣污染物濃度的實測值進行了訓練學習,建立了模型,并用此模型對污染物濃度進行了預測和預報。
然而,所有先前研究工作的有效性和可用性都是基于已有的監測站數據,從時間序列的自相關性預測未來某個時間的空氣質量污染物濃度。如果某地沒有空氣質量監測站,想要預測該位置的空氣質量仍然是一個難題。本文嘗試利用空間插值的方法來解決這個問題,并提出一個基于主動學習的Kriging插值模型,以使用最少的數據達到高精度預測的目標。
3 問題陳述和系統概述
3.1 問題陳述
空氣質量指數(air quality index, AQI)是政府機構向公眾傳達空氣污染程度的指標。在環境監測部門每天發布的空氣質量報告中,包含各種污染物的濃度值,但對于大多數人而言,這些抽象的數據并沒有很具體的意義,無法從這些數據中判斷出當前的空氣質量到底處在什么水平。于是根據環境空氣質量標準和各項污染物對人體健康、生態、環境的影響,將常規監測的幾種空氣污染物濃度簡化為單一的概念性指數值,即AQI,通過這一數值,人們可以一目了然地判斷出空氣質量的高低。
參與空氣質量評價的主要污染物為細顆粒物、可吸入顆粒物、SO2、NO2、O3等。具體來說,空氣監測站會監測并記錄空氣質量數據,從中可以獲得PM2.5、PM10、SO2、NO2、O3污染物的濃度信息,通過計算可以獲得AQI,計算式如下:
其中,為空氣質量指數,即AQI;C為污染物濃度;Cl、Ch為該污染物濃度限值,Il、Ih為對應的AQI限值,4個數均為常量,可查閱表1獲得。
本文用AQI來描述空氣質量的好壞,目標是識別AQI與空間位置之間的關系,并建立有效的模型,當給定指定地區的空間位置時,即可預測該位置的空氣質量指數。
3.2 系統概述
圖1展示了預測空氣質量指數的ALK模型的框架。首先從原始數據集中獲取污染物濃度數據以及空氣監測站數據,并將其提取為兩個特性:AQI、監測站空間位置(經度、緯度)。之后用算法建立這些因素之間的關系,其中,輸入值是地理位置信息,輸出值是相應的AQI。最后,利用歷史數據集,驗證提出的預測模型是否能夠有效地預測指定位置的AQI。
圖1?框架概述
4 空氣質量推測模型
本節將對基于主動學習的克里金插值模型以及相關知識進行詳細介紹。
4.1 克里金插值
空間插值問題就是在已知空間上若干離散點的某一屬性值的條件下,估計空間上任意一點(x,y)的這一屬性值的問題。克里金插值法又稱空間自協方差最佳插值法。它首先考慮的是空間屬性在空間位置的變異分布,確定一個對待插點的屬性值有影響的距離范圍,然后用此范圍內的采樣點來估計待插點的屬性值。該方法在數學上可對研究的對象提供一種最佳線性無偏估計(某點處的確定值),它在考慮了信息樣品的形狀、大小、與待估計塊段之間的空間位置等幾何特征以及品位的空間結構之后,為達到線性、無偏和最小估計方差的估計,對每一個樣品賦予一定的系數,最后進行加權平均來估計塊段品位。其基本插值步驟如下。
步驟1 計算半方差,衡量各點之間的空間相關程度,其計算式為:
其中,h為各監測之間的距離,n為由h分開的成對樣本的數量,z(xi)為點xi的屬性值。
步驟2 建立空間變異函數,將不同距離的半方差值都計算出來后,找出與之擬合得最好的理論變異函數模型,可用于擬合的模型包括高斯模型、線性模型、指數模型等。
步驟3 利用擬合的模型估算未知點的屬性值,計算式為:
其中,z0為未標記樣本的AQI估計值,zxi為標記樣本點xi的AQI值,s為用來估算未知點的已知樣本點的數目,λxi為在估計z0時的zxi的權值系數。λxi由計算式(4)計算:
其中,γ(xi,xj)為已知樣本點 xi和 xj之間的變異函數值,μ為拉格朗日常數,γ(xi,x)為未知樣本點與其他已知樣本點 xi之間的變異函數值。
4.2 ALK模型
4.2.1 主動學習
在使用一些傳統的監督學習方法訓練模型的時候,往往是訓練樣本規模越大,模型的效果就越好。但在現實生活的很多場景中,標記樣本的獲取是比較困難的,這需要領域內的專家進行人工標注,時間成本和經濟成本都很大。而且,如果訓練樣本的規模過于龐大,訓練時間也會比較長。在人類的學習過程中,通常利用已有的經驗學習新的知識,同時依靠獲得的知識總結和積累經驗,經驗與知識不斷交互。機器學習模擬人類學習的過程,利用已有的知識訓練出模型,獲取新的知識,并通過不斷積累的信息修正模型,以得到更加準確、有用的新模型。因此,本文根據主動學習算法獲得需要進行標注的數據,之后將這些數據送到專家那里進行標注,再將這些數據加入訓練樣本集中對模型進行訓練,以提高模型的精確度。這個過程叫作主動學習。
主動學習在每一輪的訓練過程中反復運用監督學習方法,得到上一輪標記結果中最有價值的樣例,并主動采樣其真實標簽,將結果一起加入當前的訓練樣本集中,不斷訓練。本文將主動學習理論應用于克里金插值模型,得到基于主動學習的克里金插值模型。ALK算法流程如圖2所示,步驟如下。
圖2?基于主動學習的克里金模型算法流程
步驟1 確定標記與未標記樣本集,初始化克里金插值模型參數,本文克里金插值模型采用指數函數。
步驟2 使用標記樣本訓練克里金模型,并對未標記樣本集進行插值估算。
步驟3 從插值結果中選擇滿足置信度要求的未標記樣本及其主動采樣獲得的真實標簽,將加入插值模型的標記樣本集中,并從未標記樣本集中去除該樣本。
步驟4 重新訓練克里金插值模型,直至訓練出一定數量的未標記樣本為止。
4.2.2?基于置信度的計算方法
在基于置信度的主動學習算法中,置信度被用于從若干未標記樣本中選取最有價值的訓練結果,在模型學習過程中,每一輪選取的未標記樣本都會對插值模型的精度產生影響,在主動學習中,選定的最有價值的未標記樣本會主動標記真實標簽,因此通常選擇模型學習中最不確定的未標記樣本,因為它對學習模型來說是最有價值的。本文采用了Kriging模型中的均方差(mean-square error,MSE)作為置信度評判的指標,考慮了以下兩種置信度計算方法。
● MSE1-MSE2:如果在未標記樣本中存在一條數據,當其加入標記樣本時,使得插值模型的均方差變大且變大的幅度最大或使插值模型的均方差變小且變小的幅度最小,則這條數據為置信度最低的未標記樣本,置信度V使用以下計算式計算:
其中,yi是第 i個標記在原插值模型上的MSE,y?i是第i個標記樣本在新插值模型上的 MSE,這里的新插值模型指的是加入一條未標記樣本后訓練的模型,加入的未標記樣本的標簽是由原插值模型預測的結果。當V最小時,此未標記樣本為本次循環中置信度最低的樣本。
● MSE:直接選擇ALK模型對未標記樣本的預估值與實際值誤差最大的點為置信度最低的未標記樣本。
5 實驗結果
在這一部分中,首先對數據集進行了描述。然后,評估本文提出的ALK模型的性能。最后,展示了該模型應用于空氣質量指數預測的結果。
5.1 數據描述
在這項研究中,主要使用空氣質量數據。數據集包含從2014年5月到2015年4月43個城市共437個空氣監測站的空氣質量數據,每條空氣質量數據包含特定時間各個污染物濃度的信息。表2為數據集中某空氣監測站的空氣質量記錄,其中station_id是空氣監測站的ID,time是該條空氣質量監測的時間,其余分別為PM2.5、PM10、NO2、CO、O3、SO2的濃度信息。本文主要關注空氣質量指數,因此從空氣質量數據中提取除CO之外的5種污染物濃度信息,并計算AQI。
表3為某空氣監測站的數據,其中station_id是空氣監測站的ID,name_chinese、name_english分別為空氣監測站的中文名稱與英文名稱,latitude、longitude分別為空氣監測站的經度和緯度,district_id為監測站 對應的街道ID。需要從空氣監測站記錄數據中提取空間位置信息,用于訓練模型。對監測站點的緯度和經度使用聚類算法,將437個站點分為兩個簇(簇1和簇2),然后將整合提取到的所有特征用于訓練模型。
5.2 評估指標
本文實驗將監測站點隨機分為兩組(標記樣本集與未標記樣本集),分別使用克里金插值、基于主動學習的克里金插值和普通機器學習回歸樹方法對未標記站點集進行空間插值分析。為了驗證模型精 度,通過平均絕對百分誤差(MAPE)對插值結果進行評估。MAPE值越小,代表模型的精度越高,其計算式如下:
本文采用了以下兩種方法計算MAPE。
● 方法一:直接采用測試數據計算MAPE。
● 方法二:將每個簇整個空間劃分為40×40的網格,對每個格子進行插值,選取與測試點最近的格子,計算MAPE。
本實驗選取一天24 h的數據,使用傳統的克里金插值建模,并對數據進行測試,測試結果如圖3、圖4所示。結果表明,方法一和方法二的預測誤差相差不大,因此兩種方法預測出的結果可以相互驗證,接下來實驗將選用方法一計算誤差。
圖3?簇1兩種計算誤差方法對比
圖4?簇2兩種計算誤差方法對比
5.3 置信度計算方法選擇
本節首先對MSE1-MSE2和MSE兩種置信度計算方法進行對比,之后選擇結果更 優的置信度計算方法指 導采樣訓練ALK模型,并與隨機采樣的Kriging模型進行比較。本實驗還將流形適應實驗設計(manifold adaptive experimental design,MAED)主動學習算法與克里金插值和傳統機器學習方法回歸樹結合,訓練模型。
如圖5、圖6所示,分別使用兩種基于置信度的計算方法建立ALK模型,實驗結果表明,用MSE方法訓練的克里金模型的誤差更低,因此之后的研究中使用此方法訓練克里金模型,并進行比較。
圖5?簇1基于置信度的兩種計算方法對比
圖6?簇2基于置信度的兩種計算方法對比
5.4 模型性能結果
首先,對于模型性能,本實驗將數據集中25%的隨機子集作為測試集,模型在剩余75%的數據集中進行訓練,訓練集分為兩部分,一部分是已知AQI的,一部分是未知、等待抽樣的。預測AQI的目標是估計一個地區在時間窗內的空氣質量的變化,而這種變化不能被直接地觀測到。因此,在每個時間段中訓練模型,得到空氣質量指數的估計值,然后將估計值與測試數據進行比較。
當規定20個采樣點時,結果表明ALK模型所選樣本對空間的覆蓋率更大,可以更好地對空間數據進行插值。
均方根誤差(RMSE)是一種常用的測量模型預測值和實際觀察值的差值的方法。經計算,使用克里金插值法與基于主動學習的Kriging插值法的插值精度提升對比見表4。由表4可知,基于主動學習的克里金插值相對于傳統的克里金插值性能有所提升。前者使用主動學習算法主動采樣預測結果最差的未標記樣本的正確標簽,由于該樣本對學習模型來說是最有價值的,因此將這條數據加入訓練集后可以使模型更好地學習,從而提高精確度。
以克里金插值為基礎數據推測算法, 3種采樣算法對模型性能的改善如圖7、圖8所示,相對于隨機采樣算法(Random), MAED主動采樣算法并沒有明顯提升模型性能且結果不穩定,而筆者提出的以MSE為評估指標的主動采樣算法則可以穩定地提升預測精度。由于MAED算法選取的監測站點不一定有數據,因此當采樣數量少時,MAED算法選擇的有數據的樣本數可能達不到訓練模型要求的樣本數,因此在圖7中最右側該結果為空。
圖7?簇1不同標記樣本數量的預測結果
圖8?簇2不同標記樣本數量的預測結果
當標記數據數量少,未標記數量多時,以MSE為評估指標的主動采樣算法的預測精度更優,如圖9、圖10所示,在相同誤差下,以MSE為評估指標的主動采樣算法需要的樣本點明顯少于隨機采樣算法。此外,還將本文提出的算法與普通機器學習回歸樹算法(RegressionTree)進行了比較,結果表明,以MSE為評估指標的主動采樣算法使用最少且最有價值的數據達到了更好的預測結果,節約了人工標記數據的經濟成本與時間成本。
圖9?簇1相同誤差下所需的標記樣本數
圖10?簇2相同誤差下所需的標記樣本數
6 結束語
本文研究了如何利用已有的空氣質量數據、監測站點數據預測指定位置的空氣質量指數。筆者提出了基于主動學習的克里金插值模型,在只有少量標記樣本時,該模型可以有效地提高克里金插值法的預測精度。實際數據的實驗結果表明,筆者提出的模型比傳統方法更有效。本文未考慮氣象等因素對空氣質量指數的影響,未來不僅要對插值方法進行深入研究,還要考慮時間自相關 性以及跨域數據等因素,以進一步提高插值精度。
The authors have declared that no competing interests exist.?
作者已聲明無競爭性利益關系。
作者簡介
常慧娟(1995-),女,西北工業大學計算機學院碩士生,主要研究方向為群智感知。
於志文(1977-),男,博士,西北工業大學計算機學院教授,中國計算機學會(CCF)高級會員,主要研究方向為普適計算、社會感知計算。
於志勇(1982-),男,博士,福州大學數學與計算機科學學院副教授,CCF會員,主要研究方向為普適計算、移動社交網絡。
安琦(1993-),女,西北工業大學計算機學院碩士生,CCF學生會員,主要研究方向為群智感知。
郭斌(1980-),男,博士,西北工業大學計算機學院教授,CCF高級會員,主要研究方向為普適計算、移動群智感知。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
專題導讀:新工科背景下的大數據人才培養及課程體系設計
“數據科學”課程群與 ?“數據科學導論”課程建設初探
大數據技術原理與應用課程建設經驗分享
新工科背景下大數據專業導論課程的改革與探索
新工科背景下的計算機類專業人才培養探討
總結
以上是生活随笔為你收集整理的基于主动学习和克里金插值的空气质量推测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: bash--shell高级编程-特殊字符
- 下一篇: $(@:_config=)的意思