【2017年第4期】大数据标准体系
張群,吳東亞,趙菁華
中國電子技術標準化研究院,北京 100007?
摘要:隨著大數據的發展,標準化的內容越來越廣,標準化的對象也越來越復雜。系統地分析了國內外大數據標準化工作現狀,結合《促進大數據發展行動綱要》、中華人民共和國國民經濟和社會發展第十三個五年規劃綱要等國家戰略以及大數據產業發展對標準化工作的需求,分析我國大數據標準化工作面臨的問題,描述了大數據參考架構,提出大數據標準體系框架,給出了未來的工作建議。
關鍵詞:大數據;標準化;參考架構;標準體系
中圖分類號:TP399 ? ? ? ?文獻標識碼:A
doi:10.11959/j.issn.2096-0271.2017037
Big data standards system
ZHANG Qun, WU Dongya, ZHAO Jinghua
China Electronics Standardization Institute,Beijing 100007,China?
Abstract: With the development of big data,standardization involves more and more content,and the objects are becoming more and more complex.The status of national and international big data standardization work was systematically analyzed.In combination with the national strategy of "Platform for the Development of Big Data" and the Thirteenth Five-Year Plan of National Economic and Social Development of the People's Republic of China,as well as the demand for big data standardization,the problems of national big data standardization were pointed out,big data reference architecture and standards system was proposed,and suggestions for future work were given.
Key words: big data, standardization, reference architecture, standards system
論文引用格式:張群, 吳東亞, 趙菁華. 大數據標準體系[J]. 大數據, 2017, 3(4): 11-19.
ZHANG Q, WU D Y, ZHAO J H. Big data standards system[J]. Big Data Research, 2017, 3(4): 11-19.
1 引言
大數據的初步應用已經開始對生產、流通、分配與消費模式產生重要影響,但目前也存在核心技術差距較大、政府數據開放共享不足、應用水平低、產業基礎薄弱、法規標準滯后、信息安全問題日益突出等問題。由于大數據領域相關的標準缺失,導致大數據應用建設沒有標準可依據,形成數據信息孤島,影響數據的復用性和互融互通性,阻礙產業化發展。
2015年9月,國務院印發《促進大數據發展行動綱要》(以下簡稱《行動綱要》),明確提出“建立標準規范體系。推進大數據產業標準體系建設,加快建立政府部門、事業單位等公共機構的數據標準和統計標準體系,推進數據采集、政府數據開放、指標口徑、分類目錄、交換接口、訪問接口、數據質量、數據交易、技術產品、安全保密等關鍵共性標準的制定和實施。加快建立大數據市場交易標準體系。開展標準驗證和應用試點示范,建立標準符合性評估體系,充分發揮標準在培育服務市場、提升服務能力、支撐行業管理等方面的作用。積極參與相關國際標準制定工作”[1]。2016年3月,中華人民共和國國民經濟和社會發展第十三個五年規劃綱要,簡稱“十三五”規劃,指出要“完善大數據產業公共服務支撐體系和生態體系,加強標準體系和質量技術基礎建設”[2]。
本文通過總結國內外大數據標準化工作現狀,緊緊圍繞《行動綱要》和“十三五”規劃的要求,結合大數據產業發展對標準化工作的需求,充分分析我國大數據標準化工作面臨的問題,提出未來工作的幾點建議。
2 大數據參考架構
2015年,美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)發布了《大數據互操作框架第6卷:參考架構(big data interoperability framework volume 6 reference architecture)》,描述了大數據參考架構的總體框架[3]。2016年,全國信息技術標準化技術委員會大數據標準工作組結合NIST的《大數據互操作框架第6卷:參考架構》,提出了我國大數據參考架構,如圖1所示。該參考架構方便大家對大數據復雜性操作的認識,中立于供應商,并在技術和基礎設施方面獨立,為大數據標準化提供基本參考點,為大數據系統的基本概念和原理提供了一個總體框架,為各種利益相關者提供一種交流大數據技術的通用語言,鼓勵大數據實踐者遵守通用標準、規范和模式。
圖1 ?大數據參考架構
大數據參考架構圍繞代表大數據價值鏈的信息價值鏈(水平軸)和IT價值鏈(垂直軸)兩個維度組織展開。信息價值鏈表示大數據的應用理論作為一種數據科學方法,從數據到知識的處理過程中所實現的信息價值,其核心價值通過數據收集、預處理、分析、可視化和訪問等活動實現。IT價值鏈表示大數據作為一種新興的數據應用范式為IT技術產生的新需求帶來的價值,其核心價值通過為大數據應用提供存儲和運行大數據的網絡、基礎設施、平臺、應用工具以及其他IT服務實現。
大數據參考架構提供了一個構件層級分類體系,用于描述架構中的邏輯構件以及定義邏輯構件的分類。邏輯構件被劃分為3個層級,從高到低依次為角色、活動和組件。最頂層級的邏輯構件代表大數據參考架構中存在的5個角色,包括系統協調者、數據提供者、大數據應用提供者、大數據框架提供者、數據消費者。另外兩個非常重要的邏輯構件是安全和隱私、管理,它們為大數據的5個角色提供服務和功能。第二層級的邏輯構件是每個角色執行的活動。第三層級的邏輯構件是執行每個活動需要的功能組件。
該架構可以用于表示由多個大數據系統組成的堆疊式或鏈式系統,其中一個系統的數據消費者可以作為后面一個系統的數據提供者。該架構支持各種商業環境,包括緊密集成的企業系統和松散耦合的垂直行業,有助于理解大數據系統如何補充并有別于已有的分析、商業智能、數據庫等傳統的數據應用系統。
3 國內外大數據標準化工作部署
當前,許多國家的政府和國際組織紛紛將開發利用大數據作為奪取新一輪競爭制高點的重要抓手,實施大數據戰略。隨著大數據技術的發展與應用,大數據標準研制已成為國際各標準化組織共同關注的熱點,然而尚處于初期發展階段。
3.1 國際標準化現狀
國際大數據標準化工作主要集中在ISO/IEC JTC1/WG9大數據工作組(以下簡稱WG9)。除此之外,ISO/IEC JTC1/SC32數據管理和交換分技術委員會(以下簡稱SC32)和國際電信聯盟電信標準分局(ITU-T)也在從事大數據標準化相關的工作[4]。
(1)WG9大數據標準化情況
WG9于2014年11月正式成立。工作重點包括:聚焦和支持JTC1的大數據標準計劃;編制大數據基礎標準,以指導JTC1中其他大數據標準的編制;編制建立在基礎標準上的其他大數據標準(當JTC1下屬相關組不存在或不能編制這些標準時);識別大數據標準化中的差距;建立和維護與JTC1中那些將來可能提出大數據相關工作的所有相關實體以及任何下屬組的聯絡;識別那些正在編制有關大數據的標準和相關資料的JTC1(和其他組織)實體,并在適當時候調查有關大數據的正在進行中和潛在的新工作;與JTC1之外的相關社區共同提升意識,并鼓勵其參與JTC1的大數據標準化工作,根據需要建立聯絡。
目前,WG9的國家成員有22個,各國代表超過19 0名。正在研制《信息技術大數據概述和術語(information technologybig data-overview and vocabulary)》《信息技術大數據參考架構第1部分:框架和應用(information technology-big data reference architecture-part 1:framework and application process)》《信息技術大數據參考架構第2部分:用例和需求(information technology-big data reference architecture-part 2:use cases and derived requirements)》《信息技術大數據參考架構第3部分:參考架構(information technology-big data reference architecturepart 3:reference architecture)》《信息技術大數據參考架構第5部分:標準路線圖(information technology-big data reference architecture-part 5:standards roadmap)》國際標準。
(2)SC32大數據標準化相關情況
SC32是與大數據關系最為密切的標準化組織,持續致力于研制信息系統環境內及之間的數據管理和交換標準,為跨行業領域協調數據管理能力提供技術性支持。其工作內容包括研制開發和維護有利于規范和管理的元數據、元模型和本體的標準,此類標準有助于理解和共享數據、信息和過程,支持互操作性、電子商務以及基于模型和基于服務的開發。
2012年SC32成立了下一代分析技術與大數據研究組。2014年6月,啟動4項為大數據提供標準化支持的新工作項目,包括結構化查詢語言(structured query language, SQL)對多維數組的支持、SQL對JS對象標記(JavaScript object notation,JSON)的支持、數據集注冊元模型、數據源注冊元模型。SC32現有的標準制定和研究工作為大數據的發展提供了良好基礎。
(3)ITU-T大數據標準化相關情況
根據ITU-T現有工作基礎開展的標準化工作包括:高吞吐量、低延遲、安全、靈活和規模化的網絡基礎設施;匯聚數據機和匿名;網絡數據分析;垂直行業平臺的互操作;多媒體分析;開放數據標準。
目前,ITU-T大數據標準化工作主要是在第13研究組(SG13)開展,并由第17課題組(Q17)牽頭開展ITU-T大數據標準化工作。2015年8月,發布“基于云計算的大數據需求和能力”,正在研究的課題包括“針對大數據的物聯網具體需求和能力要求”“大數據交換需求和框架”“大數據即業務的功能架構”。
3.2 主要國家大數據標準化現狀
目前,較系統地開展大數據標準化工作的國家主要包括美國和中國。美國國家標準與技術研究院在2013年6月建立了大數據公共工作組(NBD-PWG),致力于開發大數據互操作性框架。中國在2014年12月2日由工業和信息化部信息化和軟件服務業司指導成立了全國信息技術標準化技術委員會大數據標準工作組(以下簡稱“大數據標準工作組”),全面開展我國大數據標準化工作。
3.2.1 美國NBD-PWG標準化情況
NBD-PWG工作范圍是建立來自于產業界、學術界和政府的公共環境,形成共識的定義、術語、參考架構、安全與隱私和技術路線圖,提出數據分析技術應滿足的互操作、可移植性、可用性和擴展性需求,安全有效地支持大數據應用的技術基礎設施,為大數據相關方選擇最佳方案提供支持。
NBD-PWG是一個開放工作組,歡迎來自于產業界、學術界和政府的各方面力量參與并貢獻力量。其發布《大數據互操作框架第1卷:定義(big data interoperability framework volume 1 definitions)》《大數據互操作框架第2卷:大數據分類(big data interoperability framework volume 2 big data taxonomies)》《大數據互操作框架第3卷:用例和一般需求(big data interoperability framework volume 3 use cases and general requirements)》《大數據互操作框架第4卷:安全和隱私(big data interoperability framework volume 4 security and privacy)》《大數據互操作框架第5卷:架構調研白皮書(big data interoperability framework volume 5 architectures white paper survey)》《大數據互操作框架第6卷:參考架構(big data interoperability framework volume 6 reference architecture)》《大數據互操作框架:第7卷:標準路線圖(big data interoperability framework volume 7 standards roadmap)》等研究報告。
3.2.2 中國大數據標準工作組標準化情況
中國大數據標準化工作主要集中在全國信息技術標準化技術委員會大數據標準工作組,主要負責制定和完善我國大數據領域標準體系,組織開展大數據相關技術和標準的研究,申報國家、行業標準,承擔國家、行業標準制訂和修訂計劃任務,宣傳、推廣標準實施,組織推動國際標準化活動,對口WG9大數據工作組。
其下設7個專題組:總體專題組、國際專題組、技術專題組、產品和平臺專題組、安全專題組、工業大數據專題組、電子商務大數據專題組,負責大數據領域不同方向的標準化工作。目前,正在研制的國家標準有12項,詳見表1。
表1 ?在研12項大數據領域標準
大數據技術更新快速,為了適應新形勢下標準化工作的新需求,大數據標準工作組不斷加強標準的試驗驗證,快速迭代標準化驗證和制定工作,積極推動標準化工作的快速成熟與落地。
4 大數據標準體系研究現狀
大數據標準體系是為實現大數據領域的標準化而形成的體系。標準體系的建立應具有先進性,在應用系統科學理論和方法的基礎上,運用標準化的工作原理,著眼于尋找整套的標準內容,基于這些內容,在標準體系的內在聯系上進行統一、簡化、協調和優化等處理,力求體現出系統內標準的最佳秩序,防止在標準之間存在不配套、不協調、互相矛盾及組成不合理等問題。隨著大數據的發展,標準化的內容越來越廣,標準化的對象也越來越復雜,大數據領域標準之間都存在著相互依存、相互銜接、相互補充、相互制約的內在聯系,最終形成科學的有機整體。
大數據涉及各方面的內容越來越多,標準化工作的廣泛性、復雜性主要體現在以下5個方面。
4.1 數據開放共享標準化缺乏頂層設計
政府開放數據不是政府信息公開,開放數據要把底層的、原始的數據進行開放,更多是要保障公眾對政府數據的利用。真正的開放數據要滿足完整性、可機讀、一手、非歧視、及時、非私有、可獲取、面授權等標準。數據開放、共享是數據運用的前提,許多地方政府不知道怎樣開放、開放什么、開放程序是什么、管理方式是什么、考核評價標準是什么等,地方政府在推進數據開放工作上無所適從。我國政府數據開放共享時存在數據量少、價值低、可機讀比例低、開放的數據多為靜態數據等問題。因此,數據開放共享標準化缺乏頂層設計以及至上而下的執行標準、開放標準等。
4.2 大數據交易缺少標準
在大數據上升為國家戰略的背景下,數據交易發展更是擁有了市場和政策的雙重機遇。但數據交易發展的機遇與困難同在,數據交易、交換和服務發展面臨一些問題:數據商品化需要先解決標準化問題,缺乏經過實踐檢驗的有效的數據交易市場機制和運營模型,數據商品定價和數據資產估值困難,數據隱私保護和數據安全仍需加強,政府與企業的數據開放與商品化動機不強。
在數據標準化方面,交易所產品的重要特點就是交易產品的標準化。而大數據由于數據種類繁多,格式多樣,難以形成一種普適的標準化方法,直接影響到其成為一種集中化、大規模交易的產品。由于數據的應用場景和價值不容易標準化,數據應用水平和程度有限,數據標準化程度很低,無法按照傳統的商品銷售模式進行銷售。
4.3 數據質量缺少規范
數據質量是影響大數據產業健康有序發展的重要因素之一。如何從海量數據中快速分析出有價值的信息,很大程度上取決于分析處理的數據能否真實地反映實際情況、分析的數據是否按一定要求在相同條件下收集、不同數據之間是否具有同質性、最終獲得的數據是否具備合并統計分析的基礎。然而,大數據時代下的數據質量應滿足什么樣的規范、是否達到規范的要求、大數據時代的數據質量與普通的數據質量之間的區別是什么、大數據時代的數據質量評估維度是什么,這些都是需要從標準的角度去解決的問題。
4.4 大數據系統評估標準缺乏
面向大數據需求的新硬件、軟件和服務將形成巨大的市場空間。目前,開源軟件平臺為大數據存儲管理和處理提供了基礎,國內外主流解決方案提供商紛紛基于這些開源軟件推出商用解決方案。在國家層面建立統一的測試方法,對大數據平臺產品與服務的功能進行評價,是引導技術研發、系統建設、系統調優、采購選型等工作,促進大數據產品成熟的關鍵。為此,需要建立一套評價大數據系統產品的指標體系和評價方法。需要廣泛吸取學術界和開源測試軟件的成果,聯合國內外廠商和用戶,共同建立一套評價大數據系統和服務的測試標準,在確保測試結果能夠充分反映系統特性的同時,簡化測試配置,降低測試成本。
4.5 工業大數據問題突出
縱觀大數據產業生態體系,我國工業大數據正面臨一系列問題,阻礙產業化進程。“重硬件輕軟件”變為“重軟件輕數據”,工業大數據意識淡薄;工業大數據基礎設施薄弱,企業數據安全問題突出;工業大數據標準尚未建立,數據獲取效率低下;工業大數據技術創新與應用能力滯后,難以滿足轉型升級需求。
對于國內制造業企業來說,雖然很多企業已開始意識到將物聯網和大數據技術應用到產品和服務中去,并積極地進行了初步的應用實踐,但因為在建設過程中只強調數據獲取的途徑、性能、量級,沒有考慮到數據的具體分析和利用以及相應的功能與目標,造成許多數據采集回來后沒有可用之處或使用不充分,甚至一些關鍵數據反而沒有采集。針對各領域的大數據標準化工作將為大數據相關技術在領域中的應用和發展提供重要的規范,因此十分有必要開展各領域的大數據標準化工作。
5 大數據標準體系框架
結合大數據參考架構、國內外大數據標準化工作部署、大數據標準體系研究現狀及標準化需求,根據數據自身標準化特點、數據生命周期管理、當前各領域推動大數據應用的初步實踐以及未來大數據發展的趨勢,初步構建了大數據標準體系框架,如圖2所示。
圖2 ?大數據標準體系框架
大數據標準體系框架由7個類別的標準組成,分別為:基礎標準、數據標準、技術標準、平臺/工具標準、管理標準、安全標準和行業應用標準。
基礎標準為整個標準體系提供包括總則、術語、參考模型等基礎性標準。數據標準主要針對底層數據相關要素進行規范以及數據交易、數據開放共享等方面的標準。技術標準主要對應大數據參考架構中大數據應用提供者的相關活動,針對大數據集描述、大數據處理生命周期和互操作等大數據相關技術進行規范。平臺/工具標準主要對應大數據參考架構中大數據框架
提供者的相關活動,針對系統級產品和工具級產品等大數據相關平臺和工具以及相應的測試方法和要求進行規范。管理標準以及安全標準作為數據標準的支撐體系,貫穿于數據整個生命周期的各個階段,主要對應用大數據參考架構中安全與隱私、管理等相關活動進行管理規范。行業應用標準主要是從大數據為各個行業提供的服務角度出發制定的規范。
通過對現有各類標準情況進行分析可以看出:
● 在數據資源方面,我國已經研制的一些相關標準同樣適用于大數據環境,目前急需加強這類標準的推廣應用。
● 在交換共享方面,加快數據開放共享是國家重要任務,然而尚缺乏數據開放共享方面的標準,尤其是適用于政府數據開放共享的標準。雖然在研2項交易類的國家標準,但是尚缺乏交易流程、交易數據管理等方面的標準。
● 從技術標準上來看,在數據訪問方面,目前已經發布和在研的數據導入和數據庫相關標準適用于大數據底層數據接口,但是尚缺乏分析、可視化類標準;數據質量是大數據應用和發展的基礎,目前有多項在研標準,但是均尚未發布,較為缺乏。大數據安全方面,部分現有標準適用,但是尚缺乏針對大數據的安全框架、隱私、訪問控制類標準。
● 針對大數據平臺和工具,目前發布和在研多項數據庫、非結構化數據管理產品類標準,缺乏大數據系統級相關產品的標準;在大數據環境下,數據也已成為產品,而針對系統級和工具級產品等新興產品,尚缺乏相應的標準。
綜上所述,針對大數據,我國在數據管理、信息安全等方面已經發布和在研一些標準,適用于大數據環境,提供了一定的基礎,但是缺乏標準化整體規劃;數據開放共享、數據交易、數據安全、系統級產品等方面的標準以及管理和評估類的標準較為缺乏,急需研制。
6 大數據標準化工作建議
(1)完善大數據標準化工作平臺建設完善和維護大數據標準化工作平臺,力爭做到及時、準確、高效、有序,使得工作平臺更具人性化和便利性。以我國大數據應用需求為基礎,充分凝聚相關“產學研用”的力量,積極組織標準相關的應用調研,研究我國的大數據標準體系,加強大數據標準化頂層設計,積極出臺相關建設指南,指導大數據標準化后續工作。加強研制大數據產業及應用急需的總體性標準草案,同時開展關鍵支撐技術標準、工程實施標準以及重點行業/領域應用標準的預研工作。
(2)加強重點標準研制和驗證推廣
結合大數據產業發展需求,建立并不斷完善涵蓋基礎、數據、技術、平臺/工具、管理、安全和應用的大數據標準體系。加快基礎通用國家標準和重點應用領域行業標準的研制。選擇典型企業、重點行業、重點地區開展標準試驗驗證和試點示范,加強標準的宣貫、實施和應用推廣。建立標準符合性評估體系,強化標準對市場培育、服務能力提升和行業管理的支撐作用。加強國家標準、行業標準和團體標準等各類標準之間的銜接配套。
(3)推進國際標準化
我國擁有豐富的數據資源和應用市場優勢,應盡量深入地進入國際標準化工作,大力推動標準化工作的國際化開放程度,加強我國標準化組織與相關國際組織的交流合作。組織我國產學研用資源,加快國際標準提案的推進工作,積極提交國際貢獻物。支持相關單位參與國際標準化工作并承擔相關職務,承辦國際標準化活動,擴大影響并爭取國際關鍵標準的主導權。
參考文獻:
[1]?中華人民共和國國務院.?大數據標準化現狀及標準研制[R].?北京:中華人民共和國國務院,?2015.
The State Council of the People’s Republic of China.?Action platform for greater data development[R].?Beijing:The State Council of the People’s Republic of China,?2015.
[2]?中國共產黨中央委員會.?大數據標準化現狀及標準研制[N].?北京:人民日報,?2016-2016-2016.
Central Committee of the Communist Party of China.?The 13th five-year plan for economic and social development of the People’s Republic of China[N]. Beijing: People's Daily,?2016-2016-2016.
[3]?National Institute of Standards and Technology.?NIST big data interoperability framework volume 6 reference architecture[S].?[S.l.:s.n.],?2015.
[4]?張群?.?大數據標準化現狀及標準研制[J].?信息技術與標準化,?2015(7):?23-26.
ZHANG?Q.?Big data standardization current situation and standards development [J]. Information Technology &Standardization,?2015(7):?23-26.
張群(1988-),女,博士,中國電子技術標準化研究院設備與數據研究室副主任,從事信息技術相關標準的制訂、修訂及研究工作,ISO/IEC JTC1/WG9大數據工作組專家,主要研究方向為大數據領域相關技術及標準。
吳東亞(1972-),女,中國電子技術標準化研究院信息技術研究中心高級工程師、副主任,國家OID注冊中心副主任。負責我國信息技術標準化工作,先后主持承擔數據、網絡、信息化等領域國家標準、行業標準,主導制定多項家庭網絡、物聯網等領域國際標準,承擔工業和信息化部、國家發展和改革委員會、科學技術部、國家質量監督檢驗檢疫總局等多項科研項目,獲國防科技進步獎兩次、上海市科技進步獎一次,主要研究方向為信息技術標準化。
趙菁華(1977-),女,中國電子技術標準化研究院高級工程師,負責電子政務、數據庫、辦公軟件、游戲和信息無障礙等相關技術領域國家標準和行業標準的制訂、修訂工作,主要研究方向為信息技術標準化。
總結
以上是生活随笔為你收集整理的【2017年第4期】大数据标准体系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: wireshark相关协议详解和nc命令
- 下一篇: bash-shell详解