當前位置：首頁 >

基于主动学习和克里金插值的空气质量推测

發(fā)布時間：2025/3/15 27 豆豆

生活随笔收集整理的這篇文章主要介紹了基于主动学习和克里金插值的空气质量推测小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

基于主動學習和克里金插值的空氣質(zhì)量推測

常慧娟,?於志文,?於志勇,?安琦,?郭斌

西北工業(yè)大學計算機學院，陜西西安 710072?福州大學數(shù)學與計算機科學學院，福建福州 350108?

摘要：空氣質(zhì)量監(jiān)測站僅能在少數(shù)位置部署，故而無法獲取城市中每個位置的空氣質(zhì)量信息。提出了一種基于主動學習和克里金插值的空氣質(zhì)量推測算法。該算法首先選用克里金插值作為基礎的空氣質(zhì)量推測算法，然后結(jié)合主動學習的思想，對置信度最大的位置進行優(yōu)先采樣，最終建立基于主動學習的插值模型，通過最少的監(jiān)測點對空氣質(zhì)量進行采樣，最大限度地提升推測其他位置空氣質(zhì)量的準確度。研究結(jié)果表明，所提算法能夠有效地提高空氣質(zhì)量推測精度，同時減少監(jiān)測站采樣數(shù)量，降低部署成本。

關鍵詞：克里金插值 ; 空氣質(zhì)量指數(shù) ; 主動學習 ; 空間插值 ; 空氣質(zhì)量推測

論文引用格式：

常慧娟,?於志文,?於志勇,?安琦,?郭斌.?基于主動學習和克里金插值的空氣質(zhì)量推測. 大數(shù)據(jù)[J], 2018, 4(6):54-64CHANG H J, YU Z W, YU Z Y, AN Q, GUO B.?Air quality estimation based on active learning and Kriging interpolation. Big data research[J],2018,4(6):54-64

1 引言

隨著社會經(jīng)濟的發(fā)展和人民生活水平的提高，空氣質(zhì)量越來越被大家所關注。空氣一直是維護人類及生物生存的保護膜，對人類及生物生存起著重要作用。但隨著工業(yè)及交通運輸業(yè)的不斷發(fā)展，大量的有害物質(zhì)被排放到空氣中，空氣質(zhì)量每況愈下，由其導致的酸雨和全球變暖問題都在破壞著人類的自然環(huán)境和生態(tài)系統(tǒng)。在循環(huán)經(jīng)濟、綠色經(jīng)濟、經(jīng)濟與環(huán)境可持續(xù)發(fā)展的趨勢下，為了了解空氣污染變化趨勢，掌握及時、準確、全面的空氣質(zhì)量信息，需要對空氣質(zhì)量進行精準預測，準確獲取城市中每個位置的空氣質(zhì)量成為一項必不可少的研究工作，可為監(jiān)控空氣污染狀況、制定治理措施提供依據(jù)。但由于空氣質(zhì)量監(jiān)測站需占用大量空間且成本高昂，僅能在少數(shù)位置部署，因此選取哪些位置對空氣質(zhì)量進行采樣，從而最大限度地推測其他位置的空氣質(zhì)量，是一項具有挑戰(zhàn)的工作。基于空氣質(zhì)量數(shù)據(jù)不足的情況，本文選用克里金（Kriging）插值并結(jié)合主動學習的思想，提出用于空氣質(zhì)量指數(shù) 推測的Kriging模型。

目前，對同一地區(qū)的未來某時的空氣質(zhì)量指數(shù)以及污染物濃度預測已經(jīng)有很多研究工作了，然而對同一時刻，指定地區(qū)的空氣質(zhì)量推測還沒有很好的探索。空氣質(zhì)量具有空間自相關性，因此一個簡單的方法是使用Kriging模型進行空間插值預測。在用Kriging方法建模的過程中，標記樣本數(shù)量的多少直接關系到模型的精度，當標記樣本較少時，通常難以構(gòu)建可靠的模型。在傳統(tǒng)的監(jiān)督學習環(huán)境中，應該提供大量的訓練樣例來構(gòu)建具有良好泛化能力的模型。需要指出的是，這些訓練樣例應該加上標簽，而在許多實際的機器學習和數(shù)據(jù)挖掘應用中，通常只有少數(shù)標記訓練示例是可用的，在實際應用中，空氣質(zhì)量監(jiān)測站占用了大量的空間且成本高昂，對于大多數(shù)位置而言，并沒有任何空氣質(zhì)量數(shù)據(jù)。為了提高預測精度，提出一種基于主動學習的Kriging（active-learning Kriging，ALK）插值方法，用于推測給定的任意位置的空氣質(zhì)量指數(shù)。本文的主要工作如下：

● 提高對給定的任意位置的空氣質(zhì)量指數(shù)預測的準確度；

● 提出了一個基于主動學習的Kriging插值模型，該模型通過選取少數(shù)位置對空氣質(zhì)量進行采樣，能最大限度地提升推測其他位置的空氣質(zhì)量的準確度；

● 使用我國43個城市的數(shù)據(jù)來評估提出的模型，實驗結(jié)果驗證了本文預測框架的通用性和有效性，并提高了預測精度。

2 相關工作

目前，一些關于分析和預測空氣質(zhì)量的研究工作已達到對大氣環(huán)境質(zhì)量進行預測預警的作用。這些研究工作采用了不同的方法對空氣質(zhì)量進行預測。在環(huán)境科學方面，現(xiàn)有的空氣質(zhì)量預測方法通常基于經(jīng)典的離散模型，如高斯煙羽（Gaussian plume）模型、與監(jiān)管街道峽谷相關的模型（operational street canyon模型）和計算流體動力學（computational fluid dynamics）模型。近年來，一些統(tǒng)計模型（如線性回歸模型、回歸樹模型和神經(jīng)網(wǎng)絡模型）已被應用于大氣科學，實時預測空氣質(zhì)量。宋宇辰等人和祝翠玲等人運用時間序列法和反向傳播（back propagation,BP）神經(jīng)網(wǎng)絡法建立模型，預測空氣質(zhì)量，對SO2、NO2和可吸入顆粒物的濃度值進行預測與分析；鄭宇等人使用數(shù)據(jù)驅(qū)動的方法預測未來48 h的空氣質(zhì)量監(jiān)測站的讀數(shù)，該數(shù)據(jù)驅(qū)動的方法考慮了當前的氣象數(shù)據(jù)、天氣預報、監(jiān)測站空氣質(zhì)量數(shù)據(jù)以及該監(jiān)測站周圍幾百公里其他監(jiān)測站的空氣質(zhì)量數(shù)據(jù)；林開春等人和孟倩提出基于隨機森林的空氣質(zhì)量指數(shù)預測模型和空氣質(zhì)量等級分類預測方法。蘇靜等人和楊錦偉等人應用灰色理論模型預測空氣質(zhì)量變化趨勢，對未來10年的污染因子濃度進行了預測；閆妍等人提出了一種基于神經(jīng)網(wǎng)絡的環(huán)境空氣質(zhì)量的預測方法，他們運用BP人工神經(jīng)網(wǎng)絡的多層神經(jīng)網(wǎng)絡對西安市大氣污染物濃度的實測值進行了訓練學習，建立了模型，并用此模型對污染物濃度進行了預測和預報。

然而，所有先前研究工作的有效性和可用性都是基于已有的監(jiān)測站數(shù)據(jù)，從時間序列的自相關性預測未來某個時間的空氣質(zhì)量污染物濃度。如果某地沒有空氣質(zhì)量監(jiān)測站，想要預測該位置的空氣質(zhì)量仍然是一個難題。本文嘗試利用空間插值的方法來解決這個問題，并提出一個基于主動學習的Kriging插值模型，以使用最少的數(shù)據(jù)達到高精度預測的目標。

3 問題陳述和系統(tǒng)概述

3.1 問題陳述

空氣質(zhì)量指數(shù)（air quality index， AQI）是政府機構(gòu)向公眾傳達空氣污染程度的指標。在環(huán)境監(jiān)測部門每天發(fā)布的空氣質(zhì)量報告中，包含各種污染物的濃度值，但對于大多數(shù)人而言，這些抽象的數(shù)據(jù)并沒有很具體的意義，無法從這些數(shù)據(jù)中判斷出當前的空氣質(zhì)量到底處在什么水平。于是根據(jù)環(huán)境空氣質(zhì)量標準和各項污染物對人體健康、生態(tài)、環(huán)境的影響，將常規(guī)監(jiān)測的幾種空氣污染物濃度簡化為單一的概念性指數(shù)值，即AQI，通過這一數(shù)值，人們可以一目了然地判斷出空氣質(zhì)量的高低。

參與空氣質(zhì)量評價的主要污染物為細顆粒物、可吸入顆粒物、SO2、NO2、O3等。具體來說，空氣監(jiān)測站會監(jiān)測并記錄空氣質(zhì)量數(shù)據(jù)，從中可以獲得PM2.5、PM10、SO2、NO2、O3污染物的濃度信息，通過計算可以獲得AQI，計算式如下：

其中，為空氣質(zhì)量指數(shù)，即AQI；C為污染物濃度；Cl、Ch為該污染物濃度限值，Il、Ih為對應的AQI限值，4個數(shù)均為常量，可查閱表1獲得。

本文用AQI來描述空氣質(zhì)量的好壞，目標是識別AQI與空間位置之間的關系，并建立有效的模型，當給定指定地區(qū)的空間位置時，即可預測該位置的空氣質(zhì)量指數(shù)。

3.2 系統(tǒng)概述

圖1展示了預測空氣質(zhì)量指數(shù)的ALK模型的框架。首先從原始數(shù)據(jù)集中獲取污染物濃度數(shù)據(jù)以及空氣監(jiān)測站數(shù)據(jù)，并將其提取為兩個特性：AQI、監(jiān)測站空間位置（經(jīng)度、緯度）。之后用算法建立這些因素之間的關系，其中，輸入值是地理位置信息，輸出值是相應的AQI。最后，利用歷史數(shù)據(jù)集，驗證提出的預測模型是否能夠有效地預測指定位置的AQI。

圖1?框架概述

4 空氣質(zhì)量推測模型

本節(jié)將對基于主動學習的克里金插值模型以及相關知識進行詳細介紹。

4.1 克里金插值

空間插值問題就是在已知空間上若干離散點的某一屬性值的條件下，估計空間上任意一點(x,y)的這一屬性值的問題。克里金插值法又稱空間自協(xié)方差最佳插值法。它首先考慮的是空間屬性在空間位置的變異分布，確定一個對待插點的屬性值有影響的距離范圍，然后用此范圍內(nèi)的采樣點來估計待插點的屬性值。該方法在數(shù)學上可對研究的對象提供一種最佳線性無偏估計（某點處的確定值），它在考慮了信息樣品的形狀、大小、與待估計塊段之間的空間位置等幾何特征以及品位的空間結(jié)構(gòu)之后，為達到線性、無偏和最小估計方差的估計，對每一個樣品賦予一定的系數(shù)，最后進行加權(quán)平均來估計塊段品位。其基本插值步驟如下。

步驟1 計算半方差，衡量各點之間的空間相關程度，其計算式為：

其中，h為各監(jiān)測之間的距離，n為由h分開的成對樣本的數(shù)量，z(xi)為點xi的屬性值。

步驟2 建立空間變異函數(shù)，將不同距離的半方差值都計算出來后，找出與之擬合得最好的理論變異函數(shù)模型，可用于擬合的模型包括高斯模型、線性模型、指數(shù)模型等。

步驟3 利用擬合的模型估算未知點的屬性值，計算式為：

其中，z0為未標記樣本的AQI估計值，zxi為標記樣本點xi的AQI值，s為用來估算未知點的已知樣本點的數(shù)目，λxi為在估計z0時的zxi的權(quán)值系數(shù)。λxi由計算式（4）計算：

其中，γ(xi,xj)為已知樣本點 xi和 xj之間的變異函數(shù)值，μ為拉格朗日常數(shù)，γ(xi,x)為未知樣本點與其他已知樣本點 xi之間的變異函數(shù)值。

4.2 ALK模型

4.2.1 主動學習

在使用一些傳統(tǒng)的監(jiān)督學習方法訓練模型的時候，往往是訓練樣本規(guī)模越大，模型的效果就越好。但在現(xiàn)實生活的很多場景中，標記樣本的獲取是比較困難的，這需要領域內(nèi)的專家進行人工標注，時間成本和經(jīng)濟成本都很大。而且，如果訓練樣本的規(guī)模過于龐大，訓練時間也會比較長。在人類的學習過程中，通常利用已有的經(jīng)驗學習新的知識，同時依靠獲得的知識總結(jié)和積累經(jīng)驗，經(jīng)驗與知識不斷交互。機器學習模擬人類學習的過程，利用已有的知識訓練出模型，獲取新的知識，并通過不斷積累的信息修正模型，以得到更加準確、有用的新模型。因此，本文根據(jù)主動學習算法獲得需要進行標注的數(shù)據(jù)，之后將這些數(shù)據(jù)送到專家那里進行標注，再將這些數(shù)據(jù)加入訓練樣本集中對模型進行訓練，以提高模型的精確度。這個過程叫作主動學習。

主動學習在每一輪的訓練過程中反復運用監(jiān)督學習方法，得到上一輪標記結(jié)果中最有價值的樣例，并主動采樣其真實標簽，將結(jié)果一起加入當前的訓練樣本集中，不斷訓練。本文將主動學習理論應用于克里金插值模型，得到基于主動學習的克里金插值模型。ALK算法流程如圖2所示，步驟如下。

圖2?基于主動學習的克里金模型算法流程

步驟1 確定標記與未標記樣本集，初始化克里金插值模型參數(shù)，本文克里金插值模型采用指數(shù)函數(shù)。

步驟2 使用標記樣本訓練克里金模型，并對未標記樣本集進行插值估算。

步驟3 從插值結(jié)果中選擇滿足置信度要求的未標記樣本及其主動采樣獲得的真實標簽，將加入插值模型的標記樣本集中，并從未標記樣本集中去除該樣本。

步驟4 重新訓練克里金插值模型，直至訓練出一定數(shù)量的未標記樣本為止。

4.2.2?基于置信度的計算方法

在基于置信度的主動學習算法中，置信度被用于從若干未標記樣本中選取最有價值的訓練結(jié)果，在模型學習過程中，每一輪選取的未標記樣本都會對插值模型的精度產(chǎn)生影響，在主動學習中，選定的最有價值的未標記樣本會主動標記真實標簽，因此通常選擇模型學習中最不確定的未標記樣本，因為它對學習模型來說是最有價值的。本文采用了Kriging模型中的均方差（mean-square error，MSE）作為置信度評判的指標，考慮了以下兩種置信度計算方法。

● MSE1-MSE2：如果在未標記樣本中存在一條數(shù)據(jù)，當其加入標記樣本時，使得插值模型的均方差變大且變大的幅度最大或使插值模型的均方差變小且變小的幅度最小，則這條數(shù)據(jù)為置信度最低的未標記樣本，置信度V使用以下計算式計算：

其中，yi是第 i個標記在原插值模型上的MSE，y?i是第i個標記樣本在新插值模型上的 MSE，這里的新插值模型指的是加入一條未標記樣本后訓練的模型，加入的未標記樣本的標簽是由原插值模型預測的結(jié)果。當V最小時，此未標記樣本為本次循環(huán)中置信度最低的樣本。

● MSE：直接選擇ALK模型對未標記樣本的預估值與實際值誤差最大的點為置信度最低的未標記樣本。

5 實驗結(jié)果

在這一部分中，首先對數(shù)據(jù)集進行了描述。然后，評估本文提出的ALK模型的性能。最后，展示了該模型應用于空氣質(zhì)量指數(shù)預測的結(jié)果。

5.1 數(shù)據(jù)描述

在這項研究中，主要使用空氣質(zhì)量數(shù)據(jù)。數(shù)據(jù)集包含從2014年5月到2015年4月43個城市共437個空氣監(jiān)測站的空氣質(zhì)量數(shù)據(jù)，每條空氣質(zhì)量數(shù)據(jù)包含特定時間各個污染物濃度的信息。表2為數(shù)據(jù)集中某空氣監(jiān)測站的空氣質(zhì)量記錄，其中station_id是空氣監(jiān)測站的ID，time是該條空氣質(zhì)量監(jiān)測的時間，其余分別為PM2.5、PM10、NO2、CO、O3、SO2的濃度信息。本文主要關注空氣質(zhì)量指數(shù)，因此從空氣質(zhì)量數(shù)據(jù)中提取除CO之外的5種污染物濃度信息，并計算AQI。

表3為某空氣監(jiān)測站的數(shù)據(jù)，其中station_id是空氣監(jiān)測站的ID，name_chinese、name_english分別為空氣監(jiān)測站的中文名稱與英文名稱，latitude、longitude分別為空氣監(jiān)測站的經(jīng)度和緯度，district_id為監(jiān)測站對應的街道ID。需要從空氣監(jiān)測站記錄數(shù)據(jù)中提取空間位置信息，用于訓練模型。對監(jiān)測站點的緯度和經(jīng)度使用聚類算法，將437個站點分為兩個簇（簇1和簇2），然后將整合提取到的所有特征用于訓練模型。

5.2 評估指標

本文實驗將監(jiān)測站點隨機分為兩組（標記樣本集與未標記樣本集），分別使用克里金插值、基于主動學習的克里金插值和普通機器學習回歸樹方法對未標記站點集進行空間插值分析。為了驗證模型精度，通過平均絕對百分誤差（MAPE）對插值結(jié)果進行評估。MAPE值越小，代表模型的精度越高，其計算式如下：

本文采用了以下兩種方法計算MAPE。

● 方法一：直接采用測試數(shù)據(jù)計算MAPE。

● 方法二：將每個簇整個空間劃分為40×40的網(wǎng)格，對每個格子進行插值，選取與測試點最近的格子，計算MAPE。

本實驗選取一天24 h的數(shù)據(jù)，使用傳統(tǒng)的克里金插值建模，并對數(shù)據(jù)進行測試，測試結(jié)果如圖3、圖4所示。結(jié)果表明，方法一和方法二的預測誤差相差不大，因此兩種方法預測出的結(jié)果可以相互驗證，接下來實驗將選用方法一計算誤差。

圖3?簇1兩種計算誤差方法對比

圖4?簇2兩種計算誤差方法對比

5.3 置信度計算方法選擇

本節(jié)首先對MSE1-MSE2和MSE兩種置信度計算方法進行對比，之后選擇結(jié)果更優(yōu)的置信度計算方法指導采樣訓練ALK模型，并與隨機采樣的Kriging模型進行比較。本實驗還將流形適應實驗設計（manifold adaptive experimental design，MAED）主動學習算法與克里金插值和傳統(tǒng)機器學習方法回歸樹結(jié)合，訓練模型。

如圖5、圖6所示，分別使用兩種基于置信度的計算方法建立ALK模型，實驗結(jié)果表明，用MSE方法訓練的克里金模型的誤差更低，因此之后的研究中使用此方法訓練克里金模型，并進行比較。

圖5?簇1基于置信度的兩種計算方法對比

圖6?簇2基于置信度的兩種計算方法對比

5.4 模型性能結(jié)果

首先，對于模型性能，本實驗將數(shù)據(jù)集中25%的隨機子集作為測試集，模型在剩余75%的數(shù)據(jù)集中進行訓練，訓練集分為兩部分，一部分是已知AQI的，一部分是未知、等待抽樣的。預測AQI的目標是估計一個地區(qū)在時間窗內(nèi)的空氣質(zhì)量的變化，而這種變化不能被直接地觀測到。因此，在每個時間段中訓練模型，得到空氣質(zhì)量指數(shù)的估計值，然后將估計值與測試數(shù)據(jù)進行比較。

當規(guī)定20個采樣點時，結(jié)果表明ALK模型所選樣本對空間的覆蓋率更大，可以更好地對空間數(shù)據(jù)進行插值。

均方根誤差（RMSE）是一種常用的測量模型預測值和實際觀察值的差值的方法。經(jīng)計算，使用克里金插值法與基于主動學習的Kriging插值法的插值精度提升對比見表4。由表4可知，基于主動學習的克里金插值相對于傳統(tǒng)的克里金插值性能有所提升。前者使用主動學習算法主動采樣預測結(jié)果最差的未標記樣本的正確標簽，由于該樣本對學習模型來說是最有價值的，因此將這條數(shù)據(jù)加入訓練集后可以使模型更好地學習，從而提高精確度。

以克里金插值為基礎數(shù)據(jù)推測算法， 3種采樣算法對模型性能的改善如圖7、圖8所示，相對于隨機采樣算法（Random）， MAED主動采樣算法并沒有明顯提升模型性能且結(jié)果不穩(wěn)定，而筆者提出的以MSE為評估指標的主動采樣算法則可以穩(wěn)定地提升預測精度。由于MAED算法選取的監(jiān)測站點不一定有數(shù)據(jù)，因此當采樣數(shù)量少時，MAED算法選擇的有數(shù)據(jù)的樣本數(shù)可能達不到訓練模型要求的樣本數(shù)，因此在圖7中最右側(cè)該結(jié)果為空。

圖7?簇1不同標記樣本數(shù)量的預測結(jié)果

圖8?簇2不同標記樣本數(shù)量的預測結(jié)果

當標記數(shù)據(jù)數(shù)量少，未標記數(shù)量多時，以MSE為評估指標的主動采樣算法的預測精度更優(yōu)，如圖9、圖10所示，在相同誤差下，以MSE為評估指標的主動采樣算法需要的樣本點明顯少于隨機采樣算法。此外，還將本文提出的算法與普通機器學習回歸樹算法（RegressionTree)進行了比較，結(jié)果表明，以MSE為評估指標的主動采樣算法使用最少且最有價值的數(shù)據(jù)達到了更好的預測結(jié)果，節(jié)約了人工標記數(shù)據(jù)的經(jīng)濟成本與時間成本。

圖9?簇1相同誤差下所需的標記樣本數(shù)

圖10?簇2相同誤差下所需的標記樣本數(shù)

6 結(jié)束語

本文研究了如何利用已有的空氣質(zhì)量數(shù)據(jù)、監(jiān)測站點數(shù)據(jù)預測指定位置的空氣質(zhì)量指數(shù)。筆者提出了基于主動學習的克里金插值模型，在只有少量標記樣本時，該模型可以有效地提高克里金插值法的預測精度。實際數(shù)據(jù)的實驗結(jié)果表明，筆者提出的模型比傳統(tǒng)方法更有效。本文未考慮氣象等因素對空氣質(zhì)量指數(shù)的影響，未來不僅要對插值方法進行深入研究，還要考慮時間自相關性以及跨域數(shù)據(jù)等因素，以進一步提高插值精度。

The authors have declared that no competing interests exist.?

作者已聲明無競爭性利益關系。

作者簡介

常慧娟（1995-），女，西北工業(yè)大學計算機學院碩士生，主要研究方向為群智感知。

於志文（1977-），男，博士，西北工業(yè)大學計算機學院教授，中國計算機學會（CCF）高級會員，主要研究方向為普適計算、社會感知計算。

於志勇（1982-），男，博士，福州大學數(shù)學與計算機科學學院副教授，CCF會員，主要研究方向為普適計算、移動社交網(wǎng)絡。

安琦（1993-），女，西北工業(yè)大學計算機學院碩士生，CCF學生會員，主要研究方向為群智感知。

郭斌（1980-），男，博士，西北工業(yè)大學計算機學院教授，CCF高級會員，主要研究方向為普適計算、移動群智感知。

《大數(shù)據(jù)》期刊

《大數(shù)據(jù)（Big Data Research，BDR）》雙月刊是由中華人民共和國工業(yè)和信息化部主管，人民郵電出版社主辦，中國計算機學會大數(shù)據(jù)專家委員會學術(shù)指導，北京信通傳媒有限責任公司出版的中文科技核心期刊。

關注《大數(shù)據(jù)》期刊微信公眾號，獲取更多內(nèi)容

往期文章回顧

專題導讀：新工科背景下的大數(shù)據(jù)人才培養(yǎng)及課程體系設計

“數(shù)據(jù)科學”課程群與 ?“數(shù)據(jù)科學導論”課程建設初探

大數(shù)據(jù)技術(shù)原理與應用課程建設經(jīng)驗分享

新工科背景下大數(shù)據(jù)專業(yè)導論課程的改革與探索

新工科背景下的計算機類專業(yè)人才培養(yǎng)探討

總結(jié)

以上是生活随笔為你收集整理的基于主动学习和克里金插值的空气质量推测的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： bash--shell高级编程－特殊字符
下一篇： $(@:_config=)的意思