【2017年第3期】面向共享的政府大数据质量标准化问题研究
洪學海1,王志強2,楊青海2
1.中國科學院計算技術研究所,北京 100190?
2.?中國標準化研究院,北京 100191
摘要:回顧了國內外數據質量研究與實踐的進展,重點對ISO 8000數據質量國際標準提出的數據質量框架、主數據質量、事務數據質量和產品數據質量進行了探討,對面向共享的政府大數據質量標準化的方法和測度理論進行了研究,最后對我國政府進行大數據質量控制及其標準化建設提出了建議。
關鍵詞:政府大數據 ; 主數據 ; 產品數據 ; 數據質量 ; ISO8000
中圖分類號:F253.3,L70 ? ? ? 文獻標識碼:A
doi:10.11959/j.issn.2096-0271.2017029
Research on the quality control of sharing big data for government
HONG Xuehai1, WANG Zhiqiang2, YANG Qinghai2
Abstract:?The progress of research and practice in data quality standardization was reviewed,and the framework of data quality was introduced,which was put forward by the international standard of ISO 8000 data quality.The master data quality,transaction data quality and product data quality were discussed.The method and measurement theory of the large data quality standardization for sharing were discussed.At last,suggestions for China’s government in the big data quality control and standardization were put forward.
Key words:?government big data, master data, product data, data quality, ISO 8000
論文引用格式:洪學海, 王志強, 楊青海. 面向共享的政府大數據質量標準化問題研究[J]. 大數據, 2017,3(3): 44-52.
HONG X H, WANG Z Q, YANG Q H. Research on the quality control of sharing big data for government[J]. Big Data Research, 2017,3(3): 44-52.
1 引言
大數據時代的到來,對我國政府的決策模式、治理模式和工作方式等都提出了新的挑戰。推進政府大數據戰略對實現政府治理有重要的意義,是政府治理實現的強力助推器。
當前,不論在整個社會的哪個行業、哪個部門、哪個單位、哪個個人,“數據”成為其核心屬性,“數據”成為其核心業務紐帶或重要的標識工具,即“數據”貫穿著集體或個人業務信息的“采集、存儲、傳輸、處理、應用”的全過程,“拿數據說話”成為共識。
對于政府管理來說,“拿數據說話”就是借助大數據分析、挖掘等技術,對政府獲得的方方面面的大數據進行深度分析,建立關系、找出問題、發現規律等,從而輔助政府管理部門和主要領導對政府管理的方方面面的工作進行決策,提高決策的有效性和科學性。而這個前提就是政府數據能夠共享,并且共享的數據是準確的,一定程度上是標準化的,只有保障政府大數據能夠共享,并且數據準確、完整,那么在此基礎上進行輔助政府決策的大數據分析,才能夠表現出發現問題準確、建立問題之間聯系的關系脈絡清晰、發現的規律有跡可循等特點。因此,研究政府大數據,首先要解決的是政府大數據開放與共享問題,其次最重要的是政府大數據的質量標準化問題。
2 政府大數據共享及其數據質量面臨的挑戰
政府大數據一方面來自政府部門本身的業務積累,如醫療管理部門、交通管理部門、城市經濟管理部門等,另一方面來自專門單位的采集,如地理信息、生態環境信息等。來源可謂廣泛,種類可謂繁多。政府大數據是國家和全社會的公共財富,價值密度高。然而,在筆者的研究過程中發現,真正要實現政府大數據的潛在價值,不僅技術方面面臨著大數據復雜性帶來的問題(如數據本身的復雜性、計算的復雜性和信息系統的復雜性),而且政府大數據融合方面還面臨著政府大數據資源的管理、質量和標準化等一系列的問題和挑戰,主要有以下幾個方面。
(1)數據本身的變化
數據的價值,從單一轉向多元;政府數據資源的形態,以結構化為主轉向以非結構化為主,從離線靜態數據轉變為在線動態、實時數據;數據資源的戰略地位,從機構組織層轉向跨機構組織、區域和國家層;數據權由簡變繁,并具有不確定性,涉及信息主體的所有權、刪除或留存處置權、利用權、授權他人利用的許可和審批權、隱私保護權等,甚至涉及國家數據主權議題等。
(2)數據管理主體的變化
數據管理主體從數據的控制者轉變為數據的提供者、保護者和獲取權利的協調者;從追求部門局部利益最大化轉向追求政府整體效益及社會利益的最大化;從信息孤島轉向跨界、跨領域、跨部門、跨系統、跨層級的信息融合;需要多主體聯盟與跨學科復合型數據人才支持。
(3)數據管理活動過程的變化
政府數據資源的采集,從單一來源轉向多源異構,從基于目標的局部采集轉向基于場景的全面采集;政府數據的存儲,從分布式、冷備份存儲轉向云端、熱備份存儲;政府數據的利用,從個別部門的數據公開轉向政府數據集的整體開放,從處置邊界明確轉向互聯互通,邊界模糊;政府數據的維護,從信息化管理轉向數據化、網絡化、智能化、“互聯網+”的現代化治理。
上述這些挑戰在筆者研究“寧波市政府大數據項目的數據開放與社會化利用”等課題的過程中已經充分暴露出來。突出表現首先是政府各個部門的數據標準不一、質量千差萬別,沒有基準(benchmark),甚至同一個市民的個人屬性數據在公安、社保等部門的數據項、數據集等都不統一,同一個人的屬性數據甚至還“打架”。上述存在的這些問題和挑戰可歸結為:如何在技術和政策上保障政府大數據共享目標能夠實現;在技術保障上,除了共享的信息網絡系統體系外,作為政府大數據本身,如何保障共享的數據可用、可融合,就是政府大數據開放共享最基礎性的工作。若數據不準確或數據缺失,即使共享也沒有價值;若數據標準沒有統一,即使共享也難以發揮大數據融合帶來的令人期盼的效果。政府大數據質量問題在現階段比較突出,這給依賴于政府大數據進行政府重大事項的決策帶來很大的風險。
3 大數據環境下數據質量標準化與傳統的數據質量標準化的差異
大數據質量問題是數據質量問題在這個新階段(大數據環境)表現的一個新形式,是數據質量歷史的一個階段。可以預見,伴隨著信息技術的發展和不斷演化,數據質量會呈現出不同的變化形式。
20世紀80年代以來,國際上對數據質量的概念也從狹義向廣義轉變,準確性不再是衡量數據質量的唯一標準。20世紀90年代,美國麻省理工學院(Massachusetts Institute of Technology,MIT)開展的全面數據質量管理(total data quality management, TDQM)活動,提出基于信息生產系統生產的數據產品的質量管理體系,在數據生產過程中形成的數據質量(如精度、一致性、完整性等)成為基本要求。數據用戶要求的滿意程度也成為衡量數據質量的重要指標,認為數據質量就是要“反映出數據對特定應用的滿足程度”[1]。例如,在智能制造系統中,數據是應用程序的初始原料和最終產品,并經過應用程序的組織,提供給用戶[2]。同樣的一組數據,面對不同的應用要求,可能表現出不同的數據質量。
傳統的數據質量的研究和實踐總體上可歸納為“自上而下”和“自下而上”兩種方式[3]。“自上而下”方法通常是先提出數據質量框架(data quality framework)和數據質量維度(data quality dimension),數據質量維度也稱為數據質量屬性、數據質量元素、數據質量衡量指標、數據質量特征等,然后在應用中通過與具體的需求相結合,構建可執行的細化的數據質量維度;而“自下而上”則是從具體需求出發,提煉出一系列的數據質量維度,通過實際應用的驗證,最后歸納形成數據質量框架。在具體的應用實踐中,既存在理論上構建數據質量框架但不細化到可操作的維度的現象,也存在僅在具體操作層面定義數據質量維度、改善數據質量狀況但不上升到數據質量框架的具體應用,而且在實際實踐中后者更多。
當前,在大數據環境下,研究數據質量標準化問題,一個顯著的不同于傳統的數據質量標準化的問題是強調保障多目標數據融合的實現,這也是發揮大數據價值的重要方式。由于數據來源不同、數據種類異構以及數據類型繁雜,使得用傳統的數據質量標準框架和質量維度定義大數據質量標準體系存在不適應問題,因為傳統的數據質量體系是針對單一來源數據和單一類型數據的。同時,現在大數據環境下的數據質量體系是將各種單一來源甚至單一數據類型的數據進行“混合”,形成非單一來源、非單一數據類型的“數據集”,應圍繞數據融合的目標而定義新的大數據質量體系,并且數據融合的粒度大小決定了大數據質量框架和質量維度是細粒度還是粗粒度。因此,研究大數據環境下的數據質量體系需要在傳統數據質量體系的基礎上,再研究新的大數據質量體系框架和質量維度。
國際上到目前為止,對于大數據質量標準化的研究和制定工作都還在起步階段,主要是依賴數據技術體系,從基礎、技術、產品和應用的不同角度進行分析,形成大數據質量標準化體系框架。主要由ISO/IEC JTC1 SC32的“數據管理與交換”分技術委員會、ISO/IEC JTC1 WG9大數據工作組、國際電信聯盟(International Telecommunication Union,ITU)以及美國國家標準技術研究院(National Institute of Standards and Technology, NIST)等相關組織和機構開展此項研究和標準編制工作。我國主要是全國信息技術標準化技術委員會在進行大數據標準化工作,期望與國際標準接軌。但是可以預見的是,考慮大數據質量問題的標準化工作難度較大。
4 國際標準ISO 8000與面向共享的政府大數據質量標準體系框架
4.1 數據質量國際標準——ISO 8000
ISO 8000是一套國際通用的數據質量管理標準,立足于工業數據質量,旨在為政府、公共機構和各類公司、制造企業以及應用提供更可靠、可信數據的國際標準。ISO 8000涵蓋從概念設計到廢棄處置整個數據生命周期中的質量特征。ISO 8000列出的特種數據包括但不限于:主數據、事務數據和產品數據。ISO 8000給出了一個用于改善某種特定數據的數據質量框架。該框架可獨立使用,也可與質量管理系統協同使用。ISO 8000定義了一組特征,數據供應鏈中的任何組織都可用其測試數據是否與ISO 8000保持一致。
ISO 8000是ISO 9000質量管理體系的擴充,以滿足質量管理體系內數據產品質量的需求。實踐證明,如果不能保證數據質量,ISO 9000是不能真正實現其質量目標的。ISO 9000標準家族是國際標準化組織于1987年制定并經過后續不斷修改完善而成的系列標準,可幫助組織實施、有效運行質量管理體系,是質量管理體系通用的要求或指南[4]。它不受具體的行業或經濟部門限制,可廣泛適用于各種類型和規模的組織。
圖1顯示了ISO 8000、ISO 9000和其他數據產品標準之間的關系。數據描述標準規定交換數據的模型和格式,ISO 8000以這些標準為基礎,增加了關于這些標準的使用要求,以確保交換數據的高質量。ISO 8000彌合了ISO 9000和數據產品標準之間的差距[5]。
圖1 ?ISO 8000、ISO 9000和其他數據產品標準之間的關系
ISO 8000數據質量國際標準由系列部分組成[6],各部分的側重不同,ISO 8000由以下部分組成。
● 第1~99部分:數據質量綜述。
● 第100~199部分:主數據質量。
● 第200~299部分:事務數據質量。
● 第300~399部分:產品數據質量。
其中,主數據標識和描述了個人、組織、地點、物品、服務、過程、規則和標準。該系列標準描述定義主數據質量的特性,規定了一些主數據信息,這些信息應在總體上確保信息發送方和接收方數據通信的可靠性。
事務數據規定和描述了時間事件,包括個人、組織、地點、物品、服務、過程、規則和標準。該系列標準描述定義事務數據質量的特性,規定了一些業務事務數據信息,這些信息應在總體上確保信息發送方和接收方數據通信的可靠性。
產品數據質量是產品數據正確性和適用性的度量,產品數據可保證數據能及時地提供給需要這些數據的用戶,產品數據是產品從概念到制造需要的數據。
在政府大數據相關開發與利用的應用實踐中,數據質量標準化具有極其重要的戰略地位。可以借鑒國內外業已成功應用ISO 8000數據質量國際標準的行業經驗,研究ISO 8000數據質量國際標準在政府大數據領域的應用,建立和完善數據質量管理體系,提高政府大數據質量,深化質量標準體系,為發掘政府大數據價值提供保障。
4.2 面向共享的政府大數據質量標準體系框架
到目前為止,對政府大數據的范圍或邊界還沒有形成共識,因此,在研究政府大數據質量體系的過程中,要遵循“循序漸進”的策略,從政府各個相關管理部門的管理職責范疇考慮政府大數據的最小元數據集,由此逐步向外延展。
政府大數據數據質量框架是面向政府管理的數據質量問題的基本概念及其解決方案、實施指導的抽象化結構表達。它表現為一組構件及構件實施指導、實例交互方法,能夠在具體應用中靈活定制質量工作架構,較適合政府管理部門范圍內數據質量問題復雜多樣且統一解決方案的需求。
從一般意義上來看,國家大數據標準體系由6個類別的標準組成,分別為:基礎標準、數據處理標準、數據安全標準、數據質量標準、產品和平臺標準及應用和服務標準。而從政府大數據角度看,面向共享的政府大數據質量標準體系是政府大數據質量標準體系的有機組成部分。
由此建立的政府大數據質量指標體系主要有:數據源質量、數據規模質量、數據結構質量、數據時效質量、數據價值密度質量。這5個指標體系是政府大數據質量標準的5個一級指標,數據源質量指標是數據一般性質量,另外4個質量描述的是大數據的四大特征質量。一直以來,數據質量框架是粗粒度研究數據質量問題和解決方案的重要內容和方向。筆者提出的政府大數據質量體系框架是一個參考模型,在評價各個政府大數據質量的過程中,需因地制宜。
此外,還需要考慮政府大數據質量維度問題。有些參考文獻將數據質量問題直接定義為一組屬性(特征),如正確性、適時性、完全性、一致性和相關性等。數據質量判斷依賴于使用數據的個體,不同環境下不同人員使用的適合性不同,數據質量是相對的,不能獨立于使用數據的消費者來評價數據質量。由此可見,政府大數據的質量問題從數據質量維度來看,可以為建立面向共享的政府大數據質量評價體系的二級乃至三級指標體系提供多維度的指標,從而可以構建不同目標、不同方式的面向共享的政府大數據的質量評價體系框架。
在以后的研究中,需要分析面向共享的政府大數據標準化需求,研究大數據質量的特殊性,研究大數據標準化的特殊性。針對典型應用,理解大數據共享的主要價值,研究政府大數據共享現狀,研究政府大數據質量現狀,分析政府大數據質量標準化需求。根據當前信息技術及其應用的發展趨勢,研究政府大數據資源共享的未來前景,研究典型應用中政府大數據質量問題,研究政府大數據質量標準化當前以及未來的總體需求。同時,需要提出標準體系框架與明細表,梳理政府大數據質量技術標準,研究政府大數據質量標準與技術發展、業務領域的關聯性,對政府大數據質量標準進行全景式分類研究,給出適用的政府大數據標準分類描述體系。在此基礎上,提出政府大數據標準體系框架,建立政府大數據標準明細表。
5 ?面向共享的政府大數據質量標準化方法
面向政府大數據共享,開展大數據質量標準化方法研究意義重大,包括標準化循環改進過程研究和標準化演化機理研究。大數據質量標準化循環改進過程如圖2所示。以政府的行政管理為主要應用領域,基于過程控制方法,建立大數據質量保證方法,通過構建大數據質量評估模型,實現大數據質量的改進和完善。通過大數據質量計劃、大數據質量實施、大數據質量評價、大數據質量改進來實現大數據的質量目標。對大數據的質量評價應建立在與大數據質量標準化、大數據標準體系密切關聯的大數據質量測度模型的基礎上。大數據質量標準化與質量改進,需要滿足大數據質量需求,并實現大數據質量效益的目標。
圖2 ?大數據質量標準化循環改進過程
從時間維、空間維和業務維3個維度探索大數據質量標準化發展變化的客觀規律,研究大數據質量標準化的動態演化機理。研究大數據質量標準化過程的主要特點和規律,包括其復雜性、網絡化、自組織等特性。
●?復雜性包括涉及大數據生命周期各階段的時間復雜性、涉及不同層級相關組織的空間復雜性、涉及各領域應用對象的業務復雜性。
●?網絡化是指在大數據質量標準化演化中,不同層級的相關組織形成的多種形式的關聯關系。
●?自組織是指大數據質量標準化的過程是一個自行改進、優勝劣汰的系統過程。
6 面向共享的政府大數據質量測度理論方法
政府大數據質量具有其特殊性,一是數據來源的多樣性,帶來豐富的數據類型,增加了數據質量評測的難度;二是數據規模的海量性,使得難以在合理的時間內判斷數據質量的好壞;三是數據變化的快速性,使得難以形成相對穩定的數據質量評測體系和方法。這也就決定了在大數據環境下,數據質量的測度理論和評價方法與傳統數據質量測度和評價相比會有顯著不同。大數據質量是全景式的數據質量,包括面向數據生命周期的時間維、面向不同層級邏輯組織的空間維、面向不同領域應用對象的業務維。
面向政府大數據共享,開展大數據質量測度理論方法研究,包括測度模型的研究和評價方法的研究。圖3為大數據全景式數據質量測度模型,分為時間維、空間維、業務維3個維度。時間維面向大數據生命周期,包括大數據產生、采集、傳輸、存儲、分析、使用等環節。空間維面向大數據的邏輯組織空間,包括企業/子部門內、行業/部門內、跨行業/部門等多個層級。業務維面向大數據的主要業務對象,包括商貿、監管、工業、交通、安全、醫療等政府相關業務領域。時間維、空間維、業務維3個維度以及各個維度上的要素,反映了大數據質量的多個視角、關鍵影響要素,共同構成大數據共享質量測度的模型,為大數據共享質量評價奠定理論基礎。
圖3 ?全景式數據質量測度模型
大數據的來源和應用都是多學科的,對大數據的質量評價不是單一階段、單一組織、單一領域的技術問題,而是一個跨周期、跨部門、跨業務的綜合性問題,是一項系統工程。需要研究測度模型及其各個視圖投影,研究多維度的綜合評價方法以及某個視角的特定評價方法。
針對以上特點,大數據質量測度需要建立全景式測度模型,從而綜合考慮各個環節、各個層級、各個領域的特殊性和普遍性,以提升大數據質量測度模型的科學性和適用性。
7 結束語
大數據時代的到來對我國政府的決策模式、治理模式和工作方式等都提出了新的挑戰。推進政府大數據戰略對實現政府治理有著重要的意義,是政府治理實現的強力助推器。當前,這一工作的推進面臨著數據公開缺乏社會規范條件、數據格式缺乏統一、數據共享缺乏有效體制保障和大數據數據質量參差不齊等問題。更為重要的是,政府數據質量問題對于我國政府大數據共享至關重要。政府大數據質量的提高涉及技術、設計、流程、人員和基礎設施等多個方面。對政府大數據質量開展研究,進而提出改善數據質量的方法和對策,保障政府大數據質量,具有非常重大的意義。
結合目前我國政府大數據的數據標準、數據質量管理等現狀以及ISO 8000等數據質量國際標準,建議從以下4個方面著手提高政府數據質量。
(1)建立政府大數據質量標準
在深入研究ISO 8000等數據質量標準體系的基礎上,結合我國政府大數據現狀,建立面向共享的政府大數據質量標準,為政府大數據質量管理提供全面的遵從依據,從數據權屬和治理的角度,提出大數據標準化運行機制。
(2)建立政府大數據數據質量管理流程
基于ISO 8000 等數據質量標準體系,結合我國各地政府部門大數據現狀,建立數據質量管理體系流程,規范數據質量管理過程,提升數據質量管理的科學性,保障數據質量標準在政府大數據共享中的落地,也確保政府大數據不僅能“共”,而且還能共“享”。
(3)構建政府大數據數據質量評價模型及考核方式
基于ISO 8000的數據質量標準體系,構建政府大數據數據質量評價模型并固化,結合現有政府大數據數據質量通報等考核方式,為全面管控各級政府數據質量情況提供支撐。
(4)建立政府大數據質量管理信息化支撐工具
繼承并擴展現有政府大數據管理信息化系統,為政府大數據質量標準落地、管理流程落地、評價模型落地及考核落地提供信息化支撐。
參考文獻:
[1]LEE?Y W,?STRONG?D M.?Knowing-why about date processes and data quality[J].?Journal of Management Information System,?2003,20(3):?13-39.
[2]LEE?Y W,?PIPINO?L,?STRONG?D M,?et al.?Process-embedded data intergerity[J].?Journal of Datebase Management,?2004,15(1):?87-103.
[3]胡良霖,?黎建輝,?劉寧,?等.?科學數據質量實踐與若干思考[J].?科研信息化技術與應用,?2012,3(2):?10-18.
HU?L L,?LI?J H,?LIU?N,?et al.?Practice and some thoughts on quality of scientific data[J].?e-Science Technology &Application,?2012,3(2):?10-18.
[4]?王軍玲,?李華,?王強.?ISO 8000 數據質量系列標準探析[J].?標準科學,?2010(12):?44-46.
WANG?J L,?LI?H,?WANG?Q.?Research on ISO 8000 series standards for data quality[J].?World Standardization & Quality Management,?2010(12):?44-46.
[5]?STRONG?D M,?LEE?Y W,?WANG?R Y.?10 potholes in the road to information quality[J].?IEEE Computer,?1997,30(8):?38-46.
[6]?國際標準化組織.?數據質量第1部分:綜述:ISO/TS 8000-1:2011[S].[出版地不詳:出版者不詳]?2011.
International Organization for Standardization.?Data quality-Part 1: overview: ISO/TS 8000-1:2011[S].S.l:s.n.],?2011.
洪學海(1967-),男,博士,中國科學院計算技術研究所研究員,信息技術戰略研究中心常務副主任,兼任中國科學院計算機網絡信息中心信息化戰略與評估中心主任,主要從事高性能計算、信息服務計算以及信息技術與信息化發展戰略等方面的研究工作。發表文章40余篇,合著中文專著5本。
王志強(1975-),男,中國標準化研究院高新技術與信息標準化研究所副研究員、副所長,主要研究方向為工業數據標準化、數據質量標準化、信息資源開發利用、電子政務標準化等。
楊青海(1965-),男,博士,中國標準化研究院高級工程師,主要研究方向為工業數據標準化、產品模塊化,出版著作1本、譯著1本,發表論文10余篇。
總結
以上是生活随笔為你收集整理的【2017年第3期】面向共享的政府大数据质量标准化问题研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《大数据》专题征文:国产环境下的大数据处
- 下一篇: 实验一 线性表、堆栈和队列的操作与实现