2018.11:大数据在政府统计中的应用、瓶颈及融合路径(余芳东)
內(nèi)容摘要:應(yīng)用大數(shù)據(jù)是未來政府統(tǒng)計發(fā)展的必然趨勢。本文系統(tǒng)梳理當前政府統(tǒng)計應(yīng)用大數(shù)據(jù)的基本類型,研究探索大數(shù)據(jù)統(tǒng)計應(yīng)用實踐和基本方法思路,剖析大數(shù)據(jù)統(tǒng)計應(yīng)用面臨的困難和瓶頸,提出推進大數(shù)據(jù)與政府統(tǒng)計工作融合的路徑。大數(shù)據(jù)的統(tǒng)計應(yīng)用既有數(shù)據(jù)獲取和質(zhì)量上的困難,也有技術(shù)和方法上的瓶頸。研究認為,大數(shù)據(jù)與政府統(tǒng)計工作融合預(yù)期將經(jīng)歷三個漸進的變化階段:從短期看,傳統(tǒng)統(tǒng)計調(diào)查仍是政府統(tǒng)計數(shù)據(jù)的主要來源,而大數(shù)據(jù)逐漸成為政府統(tǒng)計的重要補充來源;從中期看,在政府統(tǒng)計信息系統(tǒng)中,大數(shù)據(jù)的影響逐漸上升,而傳統(tǒng)調(diào)查的影響有所減弱;從長期看,大數(shù)據(jù)源將部分(而不是全部)替代傳統(tǒng)調(diào)查數(shù)據(jù),最終實現(xiàn)大數(shù)據(jù)和傳統(tǒng)調(diào)查數(shù)據(jù)優(yōu)勢互補、相互融合的目標。
?
關(guān)鍵詞:大數(shù)據(jù);政府統(tǒng)計;數(shù)據(jù)類型;統(tǒng)計應(yīng)用;融合路徑
?
中圖分類號:F222 文獻標識碼:A 文章編號:1004-7794(2018)11-0003-09
?
DOI: 10.13778/j.cnki.11-3705/c.2018.11.001
?
一、引言
?
在當今大數(shù)據(jù)時代,收集、存儲、分析海量數(shù)據(jù),挖掘數(shù)據(jù)之間相關(guān)關(guān)系,洞察數(shù)據(jù)變化規(guī)律和趨勢特征,是經(jīng)濟社會統(tǒng)計研究的重要內(nèi)容。通常,大數(shù)據(jù)具有數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型多樣(Variety)、生成速度快(Velocity)、數(shù)據(jù)波動大(Volatility)、數(shù)據(jù)真實性差(Veracity)、數(shù)據(jù)價值密度低(Value)等多V特征。一方面,大數(shù)據(jù)以其高頻率、細粒度、多樣化的優(yōu)勢,為政府統(tǒng)計開辟了新的數(shù)據(jù)源,成為政府統(tǒng)計數(shù)據(jù)的重要補充來源,提升了統(tǒng)計服務(wù)能力;另一方面,大數(shù)據(jù)獲取難度大、數(shù)據(jù)質(zhì)量問題多、統(tǒng)計應(yīng)用難度大,作為政府統(tǒng)計數(shù)據(jù)源表現(xiàn)出較大的脆弱性,面臨著技術(shù)、方法和實際操作層面上的諸多困難和瓶頸。因此,需要對大數(shù)據(jù)的可用性、連續(xù)性、穩(wěn)定性等質(zhì)量問題認真評估,對大數(shù)據(jù)開發(fā)利用的成本效益進行深入分析,對不同類型大數(shù)據(jù)應(yīng)用的理論方法進行系統(tǒng)可行性論證,以維護政府統(tǒng)計數(shù)據(jù)的權(quán)威性和公信力。可以預(yù)見,推進大數(shù)據(jù)與政府統(tǒng)計工作融合將是長期漸進的過程,需要反復(fù)試驗研究,不可一蹴而就。
?
從發(fā)展趨勢看,大數(shù)據(jù)在政府統(tǒng)計中應(yīng)用潛力大,前景廣闊。近年來,各國政府統(tǒng)計機構(gòu)積極研究探索大數(shù)據(jù)的統(tǒng)計應(yīng)用,大力推進大數(shù)據(jù)與政府統(tǒng)計工作融合,積累了許多有益經(jīng)驗,取得了很多成功的應(yīng)用案例。聯(lián)合國全球大數(shù)據(jù)工作組(UNGWG)、世界銀行、國際貨幣基金組織、歐洲經(jīng)濟委員會、歐盟統(tǒng)計局等有關(guān)國際組織也分別組織開展大數(shù)據(jù)統(tǒng)計應(yīng)用試驗合作項目,研制大數(shù)據(jù)質(zhì)量評估標準,建立大數(shù)據(jù)統(tǒng)計應(yīng)用案例共享平臺,舉辦應(yīng)用技能培訓(xùn),共同解決大數(shù)據(jù)統(tǒng)計應(yīng)用的世界性難題。本文梳理歸納當前政府統(tǒng)計應(yīng)用大數(shù)據(jù)的基本類型,探索研究大數(shù)據(jù)統(tǒng)計應(yīng)用實踐和基本方法思路,剖析大數(shù)據(jù)統(tǒng)計應(yīng)用面臨的困難和瓶頸,提出推進大數(shù)據(jù)與政府統(tǒng)計工作融合的初步路徑。
?
二、政府統(tǒng)計應(yīng)用大數(shù)據(jù)的基本類型
?
在目前政府統(tǒng)計實踐中,還沒有形成通行統(tǒng)一的關(guān)于大數(shù)據(jù)采集、存儲、處理分析的技術(shù)方法,實際應(yīng)用技術(shù)方法程序千差萬別,具體選擇取決于大數(shù)據(jù)的類型、應(yīng)用領(lǐng)域和研究目的。為有效評估大數(shù)據(jù)統(tǒng)計應(yīng)用價值,分析大數(shù)據(jù)特征,研究大數(shù)據(jù)應(yīng)用方法,更好地指導(dǎo)政府統(tǒng)計應(yīng)用,有必要對大數(shù)據(jù)進行分類,按其生成方式、用途和維度可劃分為不同的大數(shù)據(jù)類型。
?
(一)按大數(shù)據(jù)生成方式劃分
?
聯(lián)合國歐洲經(jīng)濟委員會(UNECE)[1]根據(jù)大數(shù)據(jù)生成方式和來源,劃分為3大類:一是社交網(wǎng)絡(luò)數(shù)據(jù),指基于人類行為的信息;二是傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù),指在行政管理和企業(yè)經(jīng)營過程中產(chǎn)生的記錄;三是物網(wǎng)聯(lián)數(shù)據(jù),指基于機器設(shè)備生成的數(shù)據(jù)。前一類是主要表現(xiàn)為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)松散且不受控;后兩類主要是存儲在關(guān)系數(shù)據(jù)庫系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)。每一大類包括若干個具體的數(shù)據(jù)類別。
?
借鑒聯(lián)合國歐洲經(jīng)濟委員會的大數(shù)據(jù)分類,國家統(tǒng)計局在“非傳統(tǒng)數(shù)據(jù)統(tǒng)計應(yīng)用指導(dǎo)意見”中把大數(shù)據(jù)界定為通過非傳統(tǒng)調(diào)查渠道、從第三方獲取的數(shù)據(jù),包括政府部門的行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、基于電子設(shè)備生成的數(shù)據(jù)和其他數(shù)據(jù)等5大類[2]。行政記錄數(shù)據(jù)和商業(yè)記錄數(shù)據(jù)已在政府統(tǒng)計廣為應(yīng)用,而對其他類型大數(shù)據(jù)的應(yīng)用還很謹慎。
?
(二)按大數(shù)據(jù)在宏觀經(jīng)濟社會統(tǒng)計中的用途劃分
?
歐盟統(tǒng)計局[3]在總結(jié)大數(shù)據(jù)在宏觀經(jīng)濟社會統(tǒng)計應(yīng)用研究文獻資料的基礎(chǔ)上,將常用的大數(shù)據(jù)歸納如下10大類。
?
一是金融市場數(shù)據(jù),主要來源于中央銀行、證券公司、金融市場監(jiān)管部門等,包括股市、匯市、衍生品及期權(quán)交易和報價等高頻數(shù)據(jù),可用于宏觀經(jīng)濟預(yù)警預(yù)測。
?
二是電子支付數(shù)據(jù),主要來源于銀行、金融服務(wù)公司、信用卡公司等,包括信用卡、借記卡、信用轉(zhuǎn)賬、直接借記、支票交易等高頻數(shù)據(jù),可用來分析和監(jiān)測消費行為、消費支出、商品銷售、資金流動等經(jīng)濟活動情況。
?
三是移動手機數(shù)據(jù),主要來源于網(wǎng)絡(luò)運營商、第三方軟件開發(fā)商等,包括從移動手機接收/撥打電話、短信、微信等信息,可用于人口密度、人口流動、人口分布以及交通統(tǒng)計、旅游統(tǒng)計等。
?
| ???????????????????表1???聯(lián)合國歐洲經(jīng)濟委員會(UNECE)關(guān)于大數(shù)據(jù)分類 | |||
| ? | |||
| 編號 | 數(shù)據(jù)類型 | 編號 | 數(shù)據(jù)類型 |
| 1 | 社交網(wǎng)絡(luò)數(shù)據(jù) | 2250 | 企業(yè)網(wǎng)頁數(shù)據(jù) |
| 1100 | 臉書網(wǎng)、維特、英領(lǐng)等社交網(wǎng)據(jù) | 2260 | 掃描數(shù)據(jù) |
| 1200 | 博客、評論等信息 | 3 | 物聯(lián)網(wǎng)數(shù)據(jù) |
| 1300 | 個人資料 | 31 | 來自傳感器的數(shù)據(jù) |
| 1400 | 圖片 | 311 | 固定傳感器數(shù)據(jù) |
| 1500 | 視頻 | 3111 | 家庭自動化 |
| 1600 | 搜索引擎上的互聯(lián)網(wǎng)搜索數(shù)據(jù) | 3112 | 天氣/污染傳感器 |
| 1700 | 短信、通話記錄、數(shù)據(jù)記錄、位置更新、廣播覆蓋更新、在線新聞等文本信息 | 3113 | 交通傳感器/攝像頭 |
| 1800 | 用戶生成的地圖 | 3114 | 科學(xué)傳感器 |
| 1900 | 電子郵件 | 3115 | 安全/監(jiān)視錄像圖像 |
| 2 | 傳統(tǒng)業(yè)務(wù)系統(tǒng)記錄數(shù)據(jù) | 312 | 移動傳感器(跟蹤)數(shù)據(jù) |
| 21 | 來自公共機構(gòu)的數(shù)據(jù) | 3121 | 移動電話定位(GPS) |
| 2110 | 行政管理數(shù)據(jù) | 3122 | 汽車、飛機、船只等信號 |
| 22 | 來自企業(yè)的數(shù)據(jù) | 3123 | 衛(wèi)星圖像 |
| 2210 | 商業(yè)交易數(shù)據(jù) | 32 | 計算機系統(tǒng)數(shù)據(jù) |
| 2220 | 銀行/證券記錄 | 3210 | 日志 |
| 2230 | 電子商務(wù) | 3220 | 網(wǎng)頁日志 |
| 2240 | 信用卡數(shù)據(jù) | ? | ? |
?
四是物聯(lián)網(wǎng)數(shù)據(jù),主要來源于政府公共部門和私營部門,包括汽車、船舶、飛機、智能表、檢測監(jiān)測設(shè)備等附帶的傳感器/追蹤器數(shù)據(jù)和自動傳輸數(shù)據(jù),可用于交通流量統(tǒng)計、人口流動分布統(tǒng)計以及能源資源統(tǒng)計等。
?
五是衛(wèi)星遙感圖像數(shù)據(jù),主要來源于政府部門和私營部門,包括衛(wèi)星遙感拍攝的各種高清晰圖像,可用于測量國土面積、農(nóng)業(yè)和林業(yè)種植面積、農(nóng)作物產(chǎn)量及其結(jié)構(gòu)分布等統(tǒng)計信息。
?
六是掃描價格數(shù)據(jù),由零售商提供的各類商品價格、銷售等高頻數(shù)據(jù),可用來編制分地區(qū)、分商品的價格指數(shù)。
?
七是網(wǎng)絡(luò)抓取價格數(shù)據(jù),利用網(wǎng)絡(luò)抓取技術(shù)自動靈活地收集電商網(wǎng)上價格數(shù)據(jù),以補充和擴展消費者價格指數(shù)范圍。
?
八是網(wǎng)絡(luò)搜索數(shù)據(jù),從互聯(lián)網(wǎng)收集特定關(guān)鍵詞的搜索量和搜索頻率,或者是來自搜索引擎的網(wǎng)絡(luò)搜索數(shù)據(jù),可用來分析公共輿情、情緒和政策反應(yīng)等。
?
九是文本數(shù)據(jù),收集新聞媒體、維基百科等文本摘要形式的各種信息,從中挖掘經(jīng)濟社會活動的變化趨勢和規(guī)律特征。
?
十是社交媒體數(shù)據(jù),包括在維特、臉譜等互聯(lián)網(wǎng)上用戶相互溝通交流的信息,觀察人們的行為反應(yīng)和活動,可用來監(jiān)測投資消費市場情緒、公共輿情變化。
?
據(jù)聯(lián)合國全球大數(shù)據(jù)工作組(UNGWG)2015年[4]對32個經(jīng)合組織(OECD)國家、61個非OECD國家和歐盟統(tǒng)計局的調(diào)查,在政府統(tǒng)計中最常用的大數(shù)據(jù)類型有掃描價格數(shù)據(jù)、網(wǎng)絡(luò)抓取價格數(shù)據(jù)、移動手機數(shù)據(jù)、衛(wèi)星遙感圖像數(shù)據(jù),其次是金融市場數(shù)據(jù)和電子支付數(shù)據(jù),社交媒體數(shù)據(jù)和網(wǎng)絡(luò)搜索數(shù)據(jù)因涉及隱私保密問題在政府統(tǒng)計中還很少應(yīng)用。
?
(三)按大數(shù)據(jù)的縱橫維度劃分
?
根據(jù)大數(shù)據(jù)在時間和橫截面上的不同維度,可劃分為3類。
?
一是以時間序列為主的大數(shù)據(jù)集,即時間維度(T)長,而橫截面變量維度(N)有限,如金融市場數(shù)據(jù)、電子支付數(shù)據(jù)、掃描價格數(shù)據(jù)、網(wǎng)絡(luò)抓取價格數(shù)據(jù)等高頻數(shù)據(jù),通常采用經(jīng)典的時間序列計量濟模型進行統(tǒng)計推斷和宏觀經(jīng)濟預(yù)警預(yù)判。
?
二是以橫截面為主的大數(shù)據(jù)集,即時間維度有限,而截面變量維度很多,主要表現(xiàn)為面板數(shù)據(jù),通常采用面板估計方法分析數(shù)據(jù)變量之間的相關(guān)比例關(guān)系,并對相關(guān)指標進行統(tǒng)計推斷。
?
三是面板大數(shù)據(jù)集,即時間維度很長,橫截面維度很多,須采用大數(shù)據(jù)技術(shù)和模型估計方法,分析數(shù)據(jù)變量之間的相關(guān)關(guān)系以及變化特征,并進行相關(guān)統(tǒng)計推算和推斷。許多大數(shù)據(jù)是最近才剛開始收集的,時間維度相對有限,但隨著時間的推移,面板大數(shù)據(jù)集將是大數(shù)據(jù)最主要的表現(xiàn)形式。
?
三、大數(shù)據(jù)在政府統(tǒng)計中的主要應(yīng)用領(lǐng)域和獲取方式
?
目前各國政府統(tǒng)計機構(gòu)對大數(shù)據(jù)的應(yīng)用還處在研究試驗階段,通過組建大數(shù)據(jù)工作組,設(shè)立針對不同數(shù)據(jù)類型和專業(yè)應(yīng)用的大數(shù)據(jù)研究試驗項目,探索解決大數(shù)據(jù)采集、分類、清洗、存儲、處理、估算、分析等問題。
?
(一)主要應(yīng)用領(lǐng)域
?
縱觀各國統(tǒng)計機構(gòu)對大數(shù)據(jù)的應(yīng)用研究實踐,主要應(yīng)用領(lǐng)域有:一是價格統(tǒng)計,基于掃描價格數(shù)據(jù)和網(wǎng)絡(luò)抓取價格數(shù)據(jù)編制價格指數(shù),許多經(jīng)合組織國家已經(jīng)將此類數(shù)據(jù)源納入價格指數(shù)的編制過程中;二是人口、遷移流動、勞動力和旅游統(tǒng)計,利用移動手機數(shù)據(jù)進行人口和勞動力的流動和分布統(tǒng)計以及旅游統(tǒng)計;三是交通統(tǒng)計,利用道路感應(yīng)器和船只識別數(shù)據(jù)進行交通流量和交通強度統(tǒng)計;四是農(nóng)業(yè)和地理信息統(tǒng)計,利用衛(wèi)星遙感圖像數(shù)據(jù)開展農(nóng)業(yè)統(tǒng)計和空間地理分布統(tǒng)計。此外,利用水電氣智能表進行能源環(huán)境統(tǒng)計、住房統(tǒng)計,利用信用卡數(shù)據(jù)開展零售和居民消費支出統(tǒng)計,等等。大數(shù)據(jù)幾乎可以用于政府統(tǒng)計的所有專業(yè)領(lǐng)域,而且每一專業(yè)領(lǐng)域可能需要應(yīng)用若干個不同的大數(shù)據(jù)類型,同一類型大數(shù)據(jù)也可用于不同的專業(yè)領(lǐng)域。各國視本國大數(shù)據(jù)資源情況,確定應(yīng)用的重點領(lǐng)域。
?
總體上,發(fā)達國家政府統(tǒng)計應(yīng)用大數(shù)據(jù)的力度要比發(fā)展中國家更大,應(yīng)用面更廣泛,研究更深入。據(jù)調(diào)查,在報告的全球115個大數(shù)據(jù)項目中,有89個來自O(shè)ECD國家,22個來自非OECD國家,4個項目來自歐盟統(tǒng)計局;有94%的經(jīng)合組織國家政府統(tǒng)計已經(jīng)使用或正考慮使用大數(shù)據(jù)補充和拓展價格統(tǒng)計數(shù)據(jù)來源,許多國家成為大數(shù)據(jù)統(tǒng)計應(yīng)用開發(fā)研究的前沿陣地。而多數(shù)發(fā)展中國家認為大數(shù)據(jù)源是政府統(tǒng)計數(shù)據(jù)的重要補充來源,并強調(diào)可用于所有統(tǒng)計專業(yè)領(lǐng)域,但應(yīng)用研究的進展相對緩慢,研究項目相對較少。在國際層面,世界銀行、聯(lián)合國全球大數(shù)據(jù)主要開展將大數(shù)據(jù)特別是行政數(shù)據(jù)用于可持續(xù)發(fā)展目標(SDG)監(jiān)測的可行性研究。
?
| ???????????????????表2???各國政府統(tǒng)計應(yīng)用大數(shù)據(jù)的試驗研究項目 | ||
| ? | ||
| 類型 | 主要應(yīng)用領(lǐng)域 | 所用的國家統(tǒng)計機構(gòu) |
| 掃描價格數(shù)據(jù) | 用于消費者價格指數(shù) | 奧地利、比利時、丹麥、歐盟、芬蘭、荷蘭、以色列、意大利、日本、盧森堡、羅馬尼亞、南非、斯洛伐克、瑞士 |
| 用于改進住戶收支調(diào)查的可能 | 瑞典 | |
| 用于住戶食品購買和零售食品消費統(tǒng)計研究 | 美國 | |
| 用于估算國民核算、住戶收支和企業(yè)統(tǒng)計 | 捷克 | |
| 網(wǎng)絡(luò)抓取 | 用于估計職位空缺統(tǒng)計研究 | 匈牙利 |
| 用于編制消費價者價格指數(shù) | 比利時、中國、奧地利、芬蘭、荷蘭、德國、匈牙利、以色列、日本、挪威、韓國、西班牙、美國、斯洛伐克、厄瓜多爾 | |
| 利用網(wǎng)絡(luò)收集統(tǒng)計信息的方法研究 | 歐盟統(tǒng)計局 | |
| 收集勞動力市場統(tǒng)計數(shù)據(jù)、用來編制調(diào)查框架 | 波蘭 | |
| 網(wǎng)絡(luò)抓取的數(shù)據(jù)源和應(yīng)用研究 | 瑞典 | |
| 用于可持續(xù)發(fā)展監(jiān)測 | 突尼斯 | |
| 移動手機數(shù)據(jù) | 用于旅游統(tǒng)計、人口流動統(tǒng)計的可行性研究 | 歐盟統(tǒng)計局 |
| 用于旅游統(tǒng)計的試驗項目 | 愛爾蘭、捷克 | |
| 用于人口流動和分布統(tǒng)計的研究 | 意大利、荷蘭、韓國、斯洛伐克 | |
| 用于勞動力統(tǒng)計的研究 | 英國 | |
| 用于移民統(tǒng)計 | 波蘭 | |
| 用于交通統(tǒng)計 | 以色列 | |
| 衛(wèi)星圖像或 | 用于農(nóng)業(yè)統(tǒng)計 | 中國 |
| 用于統(tǒng)計單位地理位置研究 | 比利時 | |
| 獲取地形、地質(zhì)、土地利用、地理制圖等統(tǒng)計信息 | 墨西哥 | |
| 用于農(nóng)業(yè)和資源統(tǒng)計 | 美國 | |
| 用于農(nóng)業(yè)普查和建筑物住宅統(tǒng)計 | 蒙古 | |
| 社交媒體數(shù)據(jù) | 用于消費信心指數(shù)研究 | 荷蘭 |
| 用于獲取統(tǒng)計和地理信息 | 墨西哥 | |
| 研究維基統(tǒng)計和官方統(tǒng)計的相關(guān)關(guān)系 | 愛爾蘭 | |
| 用來建立幸福指數(shù)的試驗研究 | 厄瓜多爾 | |
| 信用卡數(shù)據(jù) | 信用卡交易數(shù)據(jù)和零售數(shù)據(jù)之間比較 | 中國 |
| 利用信用卡數(shù)據(jù)改進住房收支調(diào)查的可能性 | 瑞典 | |
| 利用信用卡數(shù)據(jù)估計消費支出的評估 | 美國 | |
| 道路感應(yīng)器和 | 用于社區(qū)統(tǒng)計 | 芬蘭 |
| 用于高速公路和水運交通統(tǒng)計 | 中國 | |
| 用于旅游統(tǒng)計 | 匈牙利 | |
| 用于交通統(tǒng)計 | 以色列 | |
| 用于交通強度統(tǒng)計 | 荷蘭 | |
| 水電氣智能表 | 用于能源和環(huán)境統(tǒng)計研究 | 比利時 |
| 用于居民電消費量統(tǒng)計以部分取代住戶調(diào)查 | 加拿大 | |
| 用于人口和住房、住房入住率、空置率統(tǒng)計研究 | 英國、愛爾蘭 | |
???? 注:根據(jù)UNGWG網(wǎng)站https://unstats.un.org/bigdata/inventory/整理。
(二)大數(shù)據(jù)獲取的主要方式
?
數(shù)據(jù)獲取是大數(shù)據(jù)統(tǒng)計應(yīng)用的主要挑戰(zhàn)之一。除社交媒體數(shù)據(jù)、網(wǎng)絡(luò)抓取數(shù)據(jù)、部分網(wǎng)絡(luò)搜索數(shù)據(jù)可公開免費獲取以外,其他各種類型大數(shù)據(jù)有的是政府部門的非公開數(shù)據(jù),有的是私營部門的專屬數(shù)據(jù)資源。政府統(tǒng)計部門必須依法依規(guī)并以成本效益為原則獲取和應(yīng)用大數(shù)據(jù)。對于行政記錄數(shù)據(jù),各國主要獲取方式和應(yīng)用條件是:明確政府統(tǒng)計機構(gòu)有權(quán)獲取和應(yīng)用行政記錄數(shù)據(jù)的法律規(guī)定;政府部門數(shù)據(jù)信息實行統(tǒng)一標識和編碼,便于不同數(shù)據(jù)源的合并融合;必須遵守保密機密法規(guī)制度,僅用于統(tǒng)計目的;政府統(tǒng)計機構(gòu)有權(quán)參與并影響行政記錄的生產(chǎn)設(shè)計和收集過程等。對于其他類型大數(shù)據(jù),各國最常見的獲取方式是與大數(shù)據(jù)提供方(如移動電話運營商、零售商店和連鎖超市、新聞媒體、信用卡公司和支付公司等)建立數(shù)據(jù)合作伙伴關(guān)系,簽訂數(shù)據(jù)共享機制協(xié)議,或者從大數(shù)據(jù)公司、信息技術(shù)公司等第三方直接購買數(shù)據(jù)。一些國家正在研究制定國家層面的數(shù)據(jù)共享機制,審查修訂隱私保護立法框架,以確保政府統(tǒng)計機構(gòu)合法獲取和應(yīng)用各類大數(shù)據(jù)源。
?
考慮到大數(shù)據(jù)采集、清理、處理和分析涉及信息技術(shù)、數(shù)據(jù)挖掘、統(tǒng)計推斷等多學(xué)科知識和技能,政府統(tǒng)計機構(gòu)無法獨立完成大數(shù)據(jù)開發(fā)應(yīng)用過程,必須與相關(guān)部門開展合作,聯(lián)合開發(fā)應(yīng)用。在大數(shù)據(jù)存儲管理方面,可以向第三方購買云服務(wù),以解決數(shù)據(jù)存儲問題,減輕建設(shè)信息基礎(chǔ)設(shè)施的壓力;可以將分析處理直接外包給數(shù)據(jù)提供方,政府統(tǒng)計機構(gòu)不需要與數(shù)據(jù)提供者共享微觀基礎(chǔ)數(shù)據(jù),避開了隱私機密等敏感問題。在大數(shù)據(jù)開發(fā)應(yīng)用方面,組建由統(tǒng)計部門、其他政府部門、私營部門、研究團體組成的大數(shù)據(jù)研究團隊和大數(shù)據(jù)應(yīng)用實驗室,吸納跨學(xué)科跨部門的專家學(xué)者共同研究開發(fā)應(yīng)用大數(shù)據(jù)。因此,政府統(tǒng)計機構(gòu)在確定大數(shù)據(jù)開發(fā)應(yīng)用項目時,須通盤考慮主要合作伙伴、信息技術(shù)基礎(chǔ)設(shè)施、人力資源、資金來源等因素,列出大數(shù)據(jù)應(yīng)用項目需要優(yōu)先解決的問題清單。
?
為推進大數(shù)據(jù)統(tǒng)計應(yīng)用,有關(guān)國際組織也十分注重建立大數(shù)據(jù)合作伙伴關(guān)系。歐盟統(tǒng)計局成立大數(shù)據(jù)開發(fā)小組,歐洲經(jīng)濟委員會提出大數(shù)據(jù)倡議,廣泛開展大數(shù)據(jù)應(yīng)用合作項目,在掃描數(shù)據(jù)、網(wǎng)絡(luò)抓取數(shù)據(jù)、移動手機數(shù)據(jù)、地理觀測數(shù)據(jù)的統(tǒng)計應(yīng)用方面取得了實質(zhì)性成果,有的已進入統(tǒng)計生產(chǎn)實施階段。許多發(fā)展中國家則通過聯(lián)合國全球大數(shù)據(jù)工作組、世界銀行、全球脈搏、促進統(tǒng)計發(fā)展戰(zhàn)略伙伴關(guān)系等,開展國際層面大數(shù)據(jù)應(yīng)用合作,分享最佳實踐經(jīng)驗。
?
四、大數(shù)據(jù)在政府統(tǒng)計中的主要用途和方法思路
?
這是大數(shù)據(jù)統(tǒng)計應(yīng)用的內(nèi)核,也是研究探索的重點。從全球應(yīng)用實踐看,目前大數(shù)據(jù)在政府統(tǒng)計中起著重要的補充作用,在一些專業(yè)領(lǐng)域的應(yīng)用方法思路上已取得初步研究成果。
?
(一)主要用途
?
1.擴展現(xiàn)有統(tǒng)計調(diào)查范圍,使政府統(tǒng)計數(shù)據(jù)更全面和更詳盡。
?
利用網(wǎng)絡(luò)抓取價格數(shù)據(jù)編制消費者價格指數(shù),將價格調(diào)查范圍從線下擴展到線上,補充傳統(tǒng)調(diào)查未覆蓋的代表群體,更全面反映居民消費價格變動情況。
?
2.取代部分統(tǒng)計調(diào)查項目,進行統(tǒng)計估算和推斷,減輕統(tǒng)計調(diào)查負擔。
?
利用行政登記數(shù)據(jù)開展人口普查和生命統(tǒng)計、海關(guān)統(tǒng)計和國際收支統(tǒng)計,利用水電氣智能表統(tǒng)計居民水電消費量,利用高速公路聯(lián)網(wǎng)監(jiān)控系統(tǒng)數(shù)據(jù)統(tǒng)計公路運輸量,利用衛(wèi)星遙感圖像數(shù)據(jù)測量農(nóng)作物面積和農(nóng)產(chǎn)品產(chǎn)量。這些大數(shù)據(jù)可以部分取代現(xiàn)有統(tǒng)計調(diào)查項目。
?
3.評估核查校驗現(xiàn)有統(tǒng)計數(shù)據(jù),提高數(shù)據(jù)真實準確性。
?
利用信用卡數(shù)據(jù)和掃描數(shù)據(jù)評估社會消費品零售總額、居民消費支出及其分地區(qū)數(shù)據(jù),改進貿(mào)易統(tǒng)計和住戶調(diào)查數(shù)據(jù)質(zhì)量;利用工程機械企業(yè)主要設(shè)備工作時間和綜合開工率走勢,來判斷全國投資增速的合理性。
?
4.對現(xiàn)有關(guān)鍵指標進行實時監(jiān)測預(yù)報,提高統(tǒng)計數(shù)據(jù)及時性。
?
利用移動手機數(shù)據(jù)開展人口、勞動力流動和分布統(tǒng)計,將統(tǒng)計頻率從年度、季度提高到月度,甚至每天進行實時觀測;利用金融市場數(shù)據(jù)、谷歌趨勢數(shù)據(jù)進行經(jīng)濟增長的短期預(yù)報,開展實時統(tǒng)計監(jiān)測,彌補現(xiàn)有宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)的延滯性問題。
?
5.獲取地理信息,完善抽樣框,提高統(tǒng)計設(shè)計能力。
?
利用衛(wèi)星遙感圖像數(shù)據(jù)和社交媒體數(shù)據(jù)作為識別調(diào)查單位的輔助信息,制作地理分布位置圖,改進人口和勞動力調(diào)查、企業(yè)調(diào)查抽樣框,實現(xiàn)統(tǒng)計調(diào)查全覆蓋。
?
6.開展輿情調(diào)查分析,提高統(tǒng)計服務(wù)水平。
?
利用反映互聯(lián)網(wǎng)行為趨勢、情緒變化的社交媒體數(shù)據(jù)編制投資消費信心指數(shù),構(gòu)建輿情趨勢監(jiān)測指標,觀察經(jīng)濟社會活動新模式、生活消費新趨勢,加強對經(jīng)濟社會運行的測量和描述。
?
總之,大數(shù)據(jù)是政府統(tǒng)計的重要補充來源,可補充現(xiàn)有政府統(tǒng)計在覆蓋范圍、細粒度上的不足,填補重要數(shù)據(jù)缺口,改善政府統(tǒng)計相關(guān)性;提高統(tǒng)計頻率,增強政府統(tǒng)計及時性;部分替代傳統(tǒng)統(tǒng)計調(diào)查項目,減輕統(tǒng)計調(diào)查負擔,提高政府統(tǒng)計生產(chǎn)的成本效率;生產(chǎn)新的統(tǒng)計產(chǎn)品,提供新的統(tǒng)計洞察力,提升政府統(tǒng)計服務(wù)能力。
?
(二)主要方法思路
?
大數(shù)據(jù)體量大、頻率高、可變性強,具有很大的不確定性,事先無法設(shè)置確定的變量關(guān)系模式,因此大數(shù)據(jù)應(yīng)用不能再現(xiàn)傳統(tǒng)統(tǒng)計生產(chǎn)過程,也不能運用傳統(tǒng)的統(tǒng)計方法來處理,而主要依賴各種算法來挖掘發(fā)現(xiàn)大數(shù)據(jù)的規(guī)律特征,通過建模方法進行統(tǒng)計估算和推斷。大數(shù)據(jù)統(tǒng)計推斷的技術(shù)可行性、方法合理性以及結(jié)果的有效性,是評估判斷大數(shù)據(jù)統(tǒng)計應(yīng)用是否成功的重要依據(jù)。在認定大數(shù)據(jù)的統(tǒng)計價值和成本效益之后,大數(shù)據(jù)的統(tǒng)計應(yīng)用通常須經(jīng)過3個階段:一是大數(shù)據(jù)處理,包括數(shù)據(jù)存儲和管理、數(shù)據(jù)源質(zhì)量評估、數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換、數(shù)據(jù)清洗和異常值檢測等;二是大數(shù)據(jù)分析,通過機器學(xué)習(xí)、網(wǎng)絡(luò)分析、模式識別和可視化展示等數(shù)據(jù)挖掘技術(shù),尋找發(fā)現(xiàn)數(shù)據(jù)特征、相關(guān)關(guān)系和變化規(guī)律,在此基礎(chǔ)上進行統(tǒng)計匯總和統(tǒng)計推斷,衡量經(jīng)濟社會現(xiàn)象的規(guī)模、水平、速度、比例關(guān)系,預(yù)測預(yù)判變化趨勢;三是結(jié)果評估,從統(tǒng)計專業(yè)角度對數(shù)據(jù)結(jié)果進行科學(xué)性審查,從經(jīng)濟社會角度對數(shù)據(jù)結(jié)果進行合理性和可解釋性評估,并與其他結(jié)果進行相互驗證,確保統(tǒng)計結(jié)果真實準確可靠。
?
大數(shù)據(jù)統(tǒng)計應(yīng)用的方法很多也很復(fù)雜,具體方法取決于不同的專業(yè)領(lǐng)域和不同的大數(shù)據(jù)類型。實際應(yīng)用時要突破傳統(tǒng)統(tǒng)計理論的框框,創(chuàng)新統(tǒng)計方法和統(tǒng)計思維。在價格統(tǒng)計方面,掃描價格數(shù)據(jù)和網(wǎng)絡(luò)抓取價格數(shù)據(jù)已成為許多發(fā)達國家編制價格指數(shù)的新數(shù)據(jù)源。面對采價產(chǎn)品數(shù)量規(guī)模大、更新?lián)Q代快的全量數(shù)據(jù),需要突破“比較不同時期固定數(shù)量籃子同質(zhì)可比的產(chǎn)品和服務(wù)價格”[5]這一傳統(tǒng)價格指數(shù)理論框架。為此,英國、荷蘭、比利時等統(tǒng)計局專門針對網(wǎng)絡(luò)抓取數(shù)據(jù)和掃描數(shù)據(jù)提出比較固定類群相對同質(zhì)可比的產(chǎn)品價格,觀測反映消費者購買同質(zhì)同類產(chǎn)品群的價格變化。在比較的時期內(nèi)產(chǎn)品類群是固定的,而具體產(chǎn)品是可變的。相應(yīng)地,提出了一系列適用于新數(shù)據(jù)源的指數(shù)方法。例如,英國提出采用大型數(shù)集聚類價格指數(shù)方法(Clustering large datasets into price Indices,簡稱CLIP)[6]計算基本分類以下不同時期相同產(chǎn)品類群的價格之比,而不是具體產(chǎn)品價格之比。其前提條件是要對巨量的采價產(chǎn)品進行聚類,最大限度地增加群內(nèi)產(chǎn)品的高度同質(zhì)性和相似性,以保證群內(nèi)產(chǎn)品沒有顯著差異,以降低價格指數(shù)的偏差。歐盟統(tǒng)計局提出采用動態(tài)方法和多邊比較方法(GEKS法、TPD法、GK法等)[7]計算分類價格指數(shù),以解決采價產(chǎn)品更新快的問題。顯然,這些理論框架方法是對傳統(tǒng)價格指數(shù)理論方法的拓展和延伸。國際貨幣基金組織計劃修訂《消費者價格指數(shù)手冊:理論與實踐》,增加新數(shù)據(jù)源收集和應(yīng)用的基本理論方法。大數(shù)據(jù)統(tǒng)計應(yīng)用的理論突破和方法創(chuàng)新必須進行公理檢驗,具有經(jīng)濟含義的可解釋性和統(tǒng)計推斷的有效性,充分體現(xiàn)方法的無偏性和科學(xué)嚴謹性。
?
在地理觀測數(shù)據(jù)方面,聯(lián)合國統(tǒng)計委員會在總結(jié)各國實踐研究的基礎(chǔ)上,組織制定了“地理觀測數(shù)據(jù)用于官方統(tǒng)計手冊”[8],把大數(shù)據(jù)統(tǒng)計應(yīng)用分析方法歸納為5種:經(jīng)驗方法,即傳統(tǒng)統(tǒng)計模型方法;半經(jīng)驗方法,即在傳統(tǒng)統(tǒng)計模型中加入不確定變量參數(shù);數(shù)學(xué)方法,即基于復(fù)雜的信息系統(tǒng)建立精準的參數(shù)模型;對象分析方法,即對現(xiàn)場數(shù)據(jù)進行精準分類匯總;人工智能方法,即機器學(xué)習(xí)方法,利用各種算法對數(shù)據(jù)進行分類(如邏輯和多項式回歸法、高斯最大似然法、貝葉斯網(wǎng)絡(luò)法、分類樹法、支持向量機法)、聚類(如K-均值法、凝聚聚類法、混合聚類法)、回歸(如線性回歸法、回歸樹法、神經(jīng)網(wǎng)絡(luò))、降維(如主成分分析法、獨立分量分析法)等。具體方法的選擇取決于大數(shù)據(jù)特性、統(tǒng)計估計推斷目標以及統(tǒng)計開發(fā)團隊專業(yè)知識。國際上各種關(guān)于大數(shù)據(jù)統(tǒng)計應(yīng)用手冊和指南為各國政府統(tǒng)計機構(gòu)應(yīng)用大數(shù)據(jù)提供了理論依據(jù)、方法指導(dǎo)和最佳實踐參考。
?
五、困難和瓶頸
?
在實際中,大數(shù)據(jù)的統(tǒng)計應(yīng)用既有數(shù)據(jù)獲取和質(zhì)量上的困難,也有技術(shù)和方法上的瓶頸,它無法全部替代傳統(tǒng)調(diào)查和統(tǒng)計分析。在推進大數(shù)據(jù)和政府統(tǒng)計工作融合過程中,既要防止“大數(shù)據(jù)傲慢”[8],因冒進和強推而損害政府統(tǒng)計工作的科學(xué)嚴謹權(quán)威,影響政府統(tǒng)計數(shù)據(jù)質(zhì)量和社會公信力;又要防止放大大數(shù)據(jù)的應(yīng)用風險,對大數(shù)據(jù)的統(tǒng)計應(yīng)用持觀望猶豫態(tài)度,從而導(dǎo)致應(yīng)用進程緩慢。政府統(tǒng)計機構(gòu)在大數(shù)據(jù)應(yīng)用的試驗研究和實踐探索過程中,還面臨許多困難和瓶頸。
?
1.大數(shù)據(jù)獲取問題。
?
與傳統(tǒng)調(diào)查數(shù)據(jù)不同,大數(shù)據(jù)是經(jīng)濟社會管理運行的副產(chǎn)品,往往為政府部門和私營部門所專有,因涉及隱私機密、數(shù)據(jù)轉(zhuǎn)讓、商業(yè)價值等敏感性問題,單靠政府統(tǒng)計機構(gòu)和大數(shù)據(jù)提供者建立的雙邊自愿性合作伙伴關(guān)系難以維系,無法滿足長期可持續(xù)的政府統(tǒng)計生產(chǎn)需要。實現(xiàn)大數(shù)據(jù)統(tǒng)計應(yīng)用的合法化和合規(guī)性,暢通規(guī)范大數(shù)據(jù)獲取渠道,增強大數(shù)據(jù)應(yīng)用過程和目標的透明性,實行必要的隱私機密保護措施,是各國政府促進大數(shù)據(jù)應(yīng)用戰(zhàn)略必須解決的首要問題。
?
2.大數(shù)據(jù)質(zhì)量問題。
?
大數(shù)據(jù)是隨著網(wǎng)絡(luò)系統(tǒng)、環(huán)境規(guī)則、社會行為等因素變化的動態(tài)產(chǎn)物,具有波動性大、真實性差和價值密度低等特征,因目標群體不明確、選擇偏倚、累積誤差、虛假相關(guān)、信息中斷、高頻數(shù)據(jù)不規(guī)則性和周期性模式等固有現(xiàn)象,數(shù)據(jù)存在較大的不準確、不完整、不可比、不一致、不連續(xù)、不穩(wěn)定等諸多質(zhì)量問題[9]。不是所有大數(shù)據(jù)都能用于政府統(tǒng)計,統(tǒng)計學(xué)并不接受大數(shù)據(jù)集更接近“真值”的命題,因為客觀真值在很大程度上取決于大數(shù)據(jù)潛在總體的代表性以及大數(shù)據(jù)統(tǒng)計推斷的過程和方法[10]。因此,政府統(tǒng)計應(yīng)用大數(shù)據(jù)在某種情況下離不開、也替代不了傳統(tǒng)調(diào)查數(shù)據(jù)。同時,應(yīng)用大數(shù)據(jù)也意味著政府統(tǒng)計機構(gòu)從數(shù)據(jù)的獨立調(diào)查者變?yōu)橐蕾囃獠渴袌龅臄?shù)據(jù)用戶,如果網(wǎng)絡(luò)運營商、社交媒體集團等大數(shù)據(jù)提供者對數(shù)據(jù)質(zhì)量有主觀干預(yù)或者行為控制,則可能危及政府統(tǒng)計的客觀獨立性和社會公信力。質(zhì)量是官方統(tǒng)計數(shù)據(jù)的核心,遵循官方統(tǒng)計質(zhì)量基本標準,對大數(shù)據(jù)源進行質(zhì)量評估,保持數(shù)據(jù)的客觀獨立性,是各國政府統(tǒng)計機構(gòu)面臨的難題。
?
3.大數(shù)據(jù)應(yīng)用的技術(shù)問題。
?
大數(shù)據(jù)具有體量大、來源多樣、生成快等特征,而且很多表現(xiàn)為非結(jié)構(gòu)化數(shù)據(jù),難以用傳統(tǒng)數(shù)據(jù)體系結(jié)構(gòu)進行有效處理,其采集、轉(zhuǎn)換、清理、存儲、處理等技術(shù)異常復(fù)雜,超出傳統(tǒng)統(tǒng)計數(shù)據(jù)管理和處理能力,也超越現(xiàn)有統(tǒng)計基礎(chǔ)設(shè)施的所及范圍。大數(shù)據(jù)的統(tǒng)計應(yīng)用不僅涉及自然語言處理、音頻信號處理和圖像處理等方面專業(yè)技能,還需要模式差異識別、機器學(xué)習(xí)算法、模型推算等方面專業(yè)知識。缺乏這些必要的技能和知識是目前阻礙政府統(tǒng)計應(yīng)用大數(shù)據(jù)的主要約束因素。建立健全統(tǒng)計信息基礎(chǔ)設(shè)施,開發(fā)大數(shù)據(jù)采集、轉(zhuǎn)換、清理、存儲、處理等現(xiàn)代技術(shù)系統(tǒng),引進和培養(yǎng)兼具統(tǒng)計、信息技術(shù)和機器學(xué)習(xí)專門知識人才,提高大數(shù)據(jù)統(tǒng)計應(yīng)用能力,是構(gòu)建現(xiàn)代化政府統(tǒng)計體系的主要任務(wù)。
?
4.大數(shù)據(jù)應(yīng)用的方法論問題。
?
大數(shù)據(jù)統(tǒng)計應(yīng)用集信息技術(shù)、數(shù)據(jù)科學(xué)和統(tǒng)計方法于一身,涉及統(tǒng)計學(xué)、計算機科學(xué)、應(yīng)用數(shù)據(jù)、經(jīng)濟學(xué)等多種學(xué)科,是政府統(tǒng)計的范式轉(zhuǎn)變。大數(shù)據(jù)統(tǒng)計應(yīng)用的理論方法框架在很大程度已突破傳統(tǒng)統(tǒng)計理論方法范疇,甚至需要修改現(xiàn)有傳統(tǒng)的統(tǒng)計概念和定義,才能解決基于大數(shù)據(jù)源的統(tǒng)計推斷方法問題。大數(shù)據(jù)總體不等于統(tǒng)計目標總體,也不是目標總體的隨機樣本,很難應(yīng)用傳統(tǒng)統(tǒng)計理論方法來推斷。目前許多國家大數(shù)據(jù)應(yīng)用項目仍然利用傳統(tǒng)的統(tǒng)計方法,應(yīng)用結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫和電子表格等傳統(tǒng)統(tǒng)計工具。這一方面說明大數(shù)據(jù)統(tǒng)計應(yīng)用的門檻沒有想象的那么高,大數(shù)據(jù)應(yīng)用方法不是深不可測和高不可攀的;另一方面也暴露了當前政府統(tǒng)計機構(gòu)在大數(shù)據(jù)統(tǒng)計應(yīng)用理論方法方面的欠缺,影響大數(shù)據(jù)源的有效挖掘和充分應(yīng)用。破解大數(shù)據(jù)與政府統(tǒng)計融合的方法論問題,是政府統(tǒng)計機構(gòu)在大數(shù)據(jù)時代所面臨的新課題。
?
此外,大數(shù)據(jù)獲取、處理分析需要投入相對高昂的人財物,開展成本效益評估也是政府統(tǒng)計機構(gòu)在應(yīng)用大數(shù)據(jù)時必須考慮的問題。為了幫助解決各國政府統(tǒng)計機構(gòu)面臨的上述諸多問題,聯(lián)合國全球大數(shù)據(jù)工作組、國際貨幣基金組織、歐洲經(jīng)濟委員會等有關(guān)國際組織已經(jīng)開始研制大數(shù)據(jù)質(zhì)量框架、建立大數(shù)據(jù)統(tǒng)計應(yīng)用案例共享平臺、開展大數(shù)據(jù)統(tǒng)計應(yīng)用技能方法培訓(xùn),幫助各國特別是發(fā)展中國家降低大數(shù)據(jù)統(tǒng)計應(yīng)用門檻,推動大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用。
?
六、推進融合的路徑
?
政府統(tǒng)計機構(gòu)對統(tǒng)計信息的壟斷時代已不復(fù)存在,只有通過?“設(shè)計的”傳統(tǒng)數(shù)據(jù)源與“發(fā)現(xiàn)的”大數(shù)據(jù)源的相互融合組合,才能產(chǎn)生強大的統(tǒng)計信息系統(tǒng),從而增強政府統(tǒng)計提供高效而有效的統(tǒng)計服務(wù)能力。推進大數(shù)據(jù)統(tǒng)計應(yīng)用是未來政府統(tǒng)計的發(fā)展方向和必然趨勢。自政府統(tǒng)計建立形成以來,曾經(jīng)歷了從普查到抽樣調(diào)查的統(tǒng)計范式轉(zhuǎn)變。可以預(yù)見,大數(shù)據(jù)統(tǒng)計應(yīng)用是政府統(tǒng)計的又一次范式大變革,政府統(tǒng)計機構(gòu)將從單純的數(shù)據(jù)收集者轉(zhuǎn)變?yōu)榧婢卟煌瑪?shù)據(jù)源的融合者、數(shù)據(jù)源質(zhì)量的評估者。大數(shù)據(jù)與政府統(tǒng)計工作融合預(yù)期將經(jīng)歷3個漸進的變化階段:從短期看,普查、抽樣調(diào)查等傳統(tǒng)統(tǒng)計調(diào)查仍是政府統(tǒng)計數(shù)據(jù)的主要來源,而大數(shù)據(jù)則是政府統(tǒng)計的重要輔助來源;從中期看,在政府統(tǒng)計信息系統(tǒng)中,大數(shù)據(jù)的影響逐漸上升,而傳統(tǒng)調(diào)查數(shù)據(jù)的影響有所減弱;從長期看,大數(shù)據(jù)源將部分(而不是全部)替代傳統(tǒng)調(diào)查項目,最終實現(xiàn)大數(shù)據(jù)和傳統(tǒng)調(diào)查數(shù)據(jù)優(yōu)勢互補、相互融合的目標。
?
近年來,我國政府統(tǒng)計機構(gòu)確定了“總體設(shè)計、牽頭攻關(guān)、先易后難、專業(yè)突破”的總體思路和“打造政府統(tǒng)計數(shù)據(jù)來源第二軌”的工作目標[11],加快促進大數(shù)據(jù)與政府統(tǒng)計工作融合,扎實推進大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用,已取得重大成果。在大數(shù)據(jù)獲取方面,積極與各政府部門合作建立數(shù)據(jù)共享機制,與大數(shù)據(jù)相關(guān)企業(yè)簽署大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議,利用行政記錄和企業(yè)大數(shù)據(jù)補充完善政府統(tǒng)計;在大數(shù)據(jù)統(tǒng)計應(yīng)用方面,幾乎所有專業(yè)統(tǒng)計領(lǐng)域利用不同類型的大數(shù)據(jù)源進行數(shù)據(jù)補缺、校驗、評估、推算等。我國在利用遙感圖像和地面定位技術(shù)系統(tǒng)完善農(nóng)作物播種面積和產(chǎn)量估計方面已處于世界領(lǐng)先水平。大數(shù)據(jù)作為政府統(tǒng)計數(shù)據(jù)的重要補充來源,對提高政府統(tǒng)計的科學(xué)性、準確性和時效性發(fā)揮積極作用。但是與全球大數(shù)據(jù)應(yīng)用程度相比,我國部分專業(yè)統(tǒng)計領(lǐng)域應(yīng)用大數(shù)據(jù)的力度有待進一步加強,大數(shù)據(jù)統(tǒng)計應(yīng)用的技術(shù)方法研究有待進一步深入,大數(shù)據(jù)統(tǒng)計應(yīng)用能力和水平有待進一步提高,推進大數(shù)據(jù)與政府統(tǒng)計融合的任務(wù)依然艱巨。為此,應(yīng)制定大數(shù)據(jù)統(tǒng)計應(yīng)用的路線圖,明確融合路徑,加快構(gòu)建現(xiàn)代化政府統(tǒng)計體系步伐。
?
1.建立健全大數(shù)據(jù)應(yīng)用的法律規(guī)范和數(shù)據(jù)共享開放的機制制度,為政府統(tǒng)計應(yīng)用大數(shù)據(jù)營造良好的環(huán)境保障。
?
一是完善各類大數(shù)據(jù)應(yīng)用的隱私機密保護和安全保障立法機制,既要保證數(shù)據(jù)信息安全可控,又要明確相關(guān)主體提供大數(shù)據(jù)源的法律義務(wù),為大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用奠定基礎(chǔ)。二是充分利用“五證合一”改革成果,健全部門信息標準化機制和信息共享機制,不斷提高電子化的行政記錄數(shù)據(jù)在政府統(tǒng)計中的利用程度。三是打造政府統(tǒng)計部門與企業(yè)、社會團體之間大數(shù)據(jù)開放共享平臺,暢通大數(shù)據(jù)獲取渠道,實現(xiàn)大數(shù)據(jù)與傳統(tǒng)調(diào)查數(shù)據(jù)的相互連接、相互補充。
?
2.制定大數(shù)據(jù)統(tǒng)計應(yīng)用工作規(guī)劃,提高適應(yīng)大數(shù)據(jù)時代的綜合統(tǒng)計能力,充分挖掘利用大數(shù)據(jù)的統(tǒng)計價值。
?
一是建立適應(yīng)大數(shù)據(jù)特征的信息技術(shù)基礎(chǔ)設(shè)施,提高大數(shù)據(jù)采集、存儲、處理、分析能力;二是研制不同類型的大數(shù)據(jù)統(tǒng)計推斷方法理論方法框架,開發(fā)大數(shù)據(jù)統(tǒng)計應(yīng)用技術(shù)工具、大數(shù)據(jù)質(zhì)量評估框架,增強大數(shù)據(jù)統(tǒng)計應(yīng)用的嚴謹性和有效性;三是建立大數(shù)據(jù)應(yīng)用庫,收集各種類型的大數(shù)據(jù)資料,鼓勵相關(guān)單位開展開發(fā)應(yīng)用研究;四是建立與政府、企業(yè)、學(xué)術(shù)界與統(tǒng)計界的多學(xué)科合作伙伴機制,提高研究和解決大數(shù)據(jù)統(tǒng)計理論方法和實際應(yīng)用技術(shù)問題的能力;五是引進和培養(yǎng)大數(shù)據(jù)統(tǒng)計應(yīng)用人才,組建涵蓋統(tǒng)計方法、數(shù)據(jù)科學(xué)、信息技術(shù)等專家的大數(shù)據(jù)統(tǒng)計應(yīng)用研究團隊,分工協(xié)作,聯(lián)合攻關(guān)。
?
3.以專業(yè)項目為抓手,先易后難,專業(yè)突破,穩(wěn)步推進大數(shù)據(jù)與政府統(tǒng)計工作的深度融合。
?
可先從掃描價格數(shù)據(jù)、網(wǎng)絡(luò)抓取價格數(shù)據(jù)、移動手機數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)等數(shù)據(jù)源相對穩(wěn)定、質(zhì)量相對較好、有一定經(jīng)驗基礎(chǔ)的大數(shù)據(jù)類型入手,設(shè)置不同專業(yè)領(lǐng)域研究試驗小組,跟蹤觀察不同類型大數(shù)據(jù)的變化特征,深入探索大數(shù)據(jù)采集、清理、過濾、存儲、評估、分析等環(huán)節(jié)的技術(shù)工具和手段,系統(tǒng)研究大數(shù)據(jù)應(yīng)用統(tǒng)計理論方法,認真評估大數(shù)據(jù)的統(tǒng)計推斷結(jié)果,不斷總結(jié),反復(fù)試驗,最終形成大數(shù)據(jù)在各個專業(yè)統(tǒng)計領(lǐng)域的應(yīng)用手冊和最佳實踐指南。本著“成熟一個推廣應(yīng)用一個”原則,把大數(shù)據(jù)的統(tǒng)計應(yīng)用落實到每一專業(yè)統(tǒng)計工作中,真正實現(xiàn)大數(shù)據(jù)與政府統(tǒng)計工作交互融合。
?
4.加強國際合作,借鑒國際先進經(jīng)驗做法,提升我國政府統(tǒng)計應(yīng)用大數(shù)據(jù)的能力和水平。
?
大數(shù)據(jù)統(tǒng)計應(yīng)用是世界統(tǒng)計發(fā)展趨勢,也是當前各國政府統(tǒng)計機構(gòu)面臨的共同難題。近年來,有關(guān)國際組織和國家加大大數(shù)據(jù)統(tǒng)計應(yīng)用研究力度,在大數(shù)據(jù)質(zhì)量評估、部分專業(yè)領(lǐng)域的應(yīng)用技術(shù)方法等方面取得突破性進展,積累了許多有益的經(jīng)驗。一要密切關(guān)注國際上關(guān)于大數(shù)據(jù)統(tǒng)計應(yīng)用的最新動態(tài)和成果,認真研究,及時消化吸收借鑒;二要通過研討、培訓(xùn)、項目合作等方式,積極主動地開展國際合作交流,共享知識經(jīng)驗,不斷提高我國大數(shù)據(jù)統(tǒng)計應(yīng)用在國際上的影響力。
?
參考文獻
?
[1]??UNECE Task Team. Classification on Big Data [EB/OL]. UNECE Wiki,?June 2013.
?
[2]??國家統(tǒng)計局,?國家發(fā)展改革委.?非傳統(tǒng)數(shù)據(jù)統(tǒng)計應(yīng)用指導(dǎo)意見[EB/OL].?國統(tǒng)字[2017]160號.
?
[3]??Buono D,?Mazzi G L,?Marcellino M,?et al. Big data types for macroeconomic nowcasting [J]. Eurostat Review on national accounts and Macroeconomic indicators,?2017(1): P93-145.
?
[4]??UN Statistical Commission. Report of the 2015 Big Data Survey [EB/OL]. Forty-seventh session 8–11 March 2016 Item 3(c)?of the provisional agenda Big Data for official statistics.
?
[5]??國際貨幣基金組織.?消費者價格指數(shù)手冊:?理論與實踐[M].?中國財政經(jīng)濟出版社,?2008: 12-21.
?
[6]??Office for National Statistics of UK. Research indices using web scraped price data: clustering large datasets into price indices?(CLIP)?[EB/OL]. 30 November 2016.
?
[7]??Eurostat. Practical Guide for Processing Supermarket Scanner Data [A]. 2017.
?
[8]??UN Satellite Imagery and Geospatial Data Task Team report,?Earth Observations for Official Statistics [A]. December 2017.
?
[9]??Lazer D,?Kennedy R,?King G,?et al. The Parable of Google Flu: Traps in Big Data Analysis [J]. Science,?2014,?343(6176): 1203.
?
[10]???????余芳東.?非傳統(tǒng)數(shù)據(jù)質(zhì)量評估的國際經(jīng)驗及借鑒[J].?統(tǒng)計研究,?2017(12): 15-23.
?
[11]???????Tam S,?Clarke F. Big Data,?Statistical Inference and Official Statistics [J]. International Statistical Review,?2016,?83(3): 436-448.
?
[12]???????馬建堂.?大數(shù)據(jù):?政府統(tǒng)計的新機遇[M].?北京:?中國統(tǒng)計出版社,?2015: 125-131.
?
作者簡介:
?
余芳東,女,浙江臺州人,現(xiàn)為國家統(tǒng)計局統(tǒng)計科學(xué)研究所三級職員,研究方向為經(jīng)濟統(tǒng)計和國際比較統(tǒng)計。
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的2018.11:大数据在政府统计中的应用、瓶颈及融合路径(余芳东)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 标签数据建模
- 下一篇: 图片路径上传的配置问题