专题导读:大数据整理
專題導讀:大數據整理
在大數據時代,數據呈現多源、異構、 信息不一致、信息不完整等特點,這會造 成數據不完整、數據質量較低的問題。數 據整理(包括數據發現、數據準備、數據 清洗、數據融合等)旨在整合多源異構數 據,形成高質量的統一數據視圖。由于數 據的異質性、開放性,數據整理成為大數 據處理的瓶頸,很多數據分析應用80%以 上的工作都花在了數據整理上。因此如何 實現高效的大數據的智能化整理,已成為 學術界與產業界共同關注的焦點。本專題 “大數據整理”匯集了我國從事大數據處 理方向的部分專家的研究成果,以期與大 家共同探討該方向的前沿研究與技術發展 趨勢。?
范舉等人的論文《人在回路的數據準備技術研究進展》給出了人在回路數據準 備技術的研究進展,詳細分析了基于眾包 的數據準備技術,如清洗與集成,并對眾包成本做出優化;還總結了交互式數據準備技術,將用戶交互引入數據準備中,并通過有效的預測算法來節省數據準備的時間。 最后,對人在回路的數據準備做出了總結, 并探討了未來的挑戰性問題。?
丁小歐等人的論文《工業時序大數據質量管理》介紹了工業時序大數據的特點及工業數據質量管理的難點,并對工業時序大數據質量管理的研究現狀加以分析、總結,最后提出了時序大數據質量管理方法和系統性能的提升方向。?
于明鶴等人的論文《數據管護技術及應用》系統介紹了數據管護的處理過程和 其中的關鍵技術,給出了幾種基于數據管 護的應用,并對其技術特點進行了對比分 析,還對數據管護技術的發展前景和未來挑戰進行了總結。?
包小源等人的論文《基于數據空間的電子病歷數據融合與應用平臺》針對電子病歷數據的脫敏和集成進行分析,建立了基 于原始數據空間、匿名數據空間、模型數據空間的電子病歷數據集成、融合、二次利用平臺。
本專題由于篇幅有限,不能涵蓋數據 整理的方方面面,希望通過闡述數據整理面臨的機遇與挑戰,引起各界的關注和進 一步研究,并推動其進一步發展。
客座編輯
李國良(1981- ),男,清華大學計算機科學與技術系教授,計算機軟件研究所所長, 主要研究方向為數據庫、數據融合分析、大數據挖掘與分析、群智計算。在數據庫、 數據挖掘、信息檢索領域的頂級會議和期刊上發表論文100余篇,他引7 000余次, 入選愛思唯爾2014—2018年中國高被引學者榜單。主持國家優秀青年基金項目、青年 “973” 項目、國家自然科學基金重點項目等。獲得了VLDB Early Career Research Contribution Award(VLDB杰出青年貢獻獎,亞洲唯一一位)、IEEE TCDE Early Career Award(IEEE 數據工程領域杰出新人獎,亞洲唯一一位)、青年長江學者、國 家“萬人計劃”青年拔尖人才、計算機學會青年科學家獎等獎項。擔任VLDB Journal、 IEEE TKDE、IEEE Data Engineering Bulletin、ACM Transactions on Data Science、 ACM Data and Information Quality 等期刊編委,多次擔任SIGMOD、VLDB、KDD、 ICDE、WWW、IJCAI、AAAI等會議的程序委員會委員。獲得KDD’18、ICD’18最佳 論文候選, CIKM’17最佳論文獎、DASFAA’14最佳論文提名獎、APWeb’14最佳 論文獎、EDBT’13大數據比賽冠軍。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
開放存取知識庫及其數據采集規范的研究
一種基于Gradient Boosting的公交車運行時長預測方法
學術大數據在企業專家對接中的應用
山東省地理信息時空大數據中心建設方法
農業大數據建設的需求、模式與單品種全產業鏈推進路徑
總結
以上是生活随笔為你收集整理的专题导读:大数据整理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .zip() 函数
- 下一篇: python中 .sort()、 sor