【2017年第1期】CCF大专委2017年大数据发展趋势预测
周濤1,潘柱廷1,楊婧2,程學旗2
1.?啟明星辰信息技術有限公司,北京 ?100193;
2. 中國科學院計算技術研究所,北京 ?100190
Developing tendency prediction of big data in 2017 from CCF TFBD
ZHOU Tao, PAN Zhuting, YANG Jing, CHENG Xueqi
中圖分類號:TP399 ? 文獻標識碼:A
doi:10.11959/j.issn.2096-0271.2017012
1 ?引言
2016年中國大數據技術大會(BDTC)于2016年12月8日在北京召開,在此次大會上發布了CCF大數據專家委員會(以下簡稱大專委)關于未來一年的大數據發展趨勢預測,已成為每年大會的保留節目,也成為大專委的一項品牌活動。2017年的趨勢報告一經發布,就引發了業界的廣泛關注和持續傳播。
本次大數據發展趨勢預測經歷了候選項征集和正式投票兩個環節,最終形成的預測選項包括67項發展趨勢選項和9項專項調研選項,投票范圍面向大專委的正式委員和通訊委員。本次活動共收到有效投票82份,通過對這些投票的匯總、整理和解讀,形成了本次對外發布的年度預測,這是大專委群體智慧的結晶。
任何形式的解讀都難免摻雜解讀者主觀因素的影響。下面根據2016年的投票結果,對比往年的趨勢預測情況,盡量從客觀的角度對本次活動形成的趨勢預測選項進行解讀,以便讀者對各個趨勢選項進行理解。
2 ?2017年大數據發展十大趨勢
2.1 ?趨勢一:機器學習繼續成為大數據智能分析的核心技術
在2016年的調查問卷中,將往年“深度學習繼續成為大數據智能分析的核心技術”候選項的主題詞,由“深度學習”調整為“機器學習”。做出這一調整的理由是深度學習只是機器學習領域的一個分支,雖然近年來在應用領域發展迅速,但其在算法層面上相對于傳統神經網絡算法并無本質上的創新;用機器學習取代深度學習,更能體現大數據智能分析的實質。
這一調整的效果立竿見影,該項得到了超過半數的投票專家的認可,使其成為得票最高的趨勢選項。大數據的核心價值在于蘊含在大數據之中的、深層次的信息和知識,而如果沒有機器學習技術分析大數據,對大數據核心價值的利用將無從談起。隨著機器學習與數據科學家們的關系越來越緊密,掌握機器學習的基礎技能對數據科學領域的職業發展而言將成為一種必需技能。在大數據時代,依靠大數據管理和高性能計算的支持,機器學習將成為大數據智能分析的核心技術。
2.2 ?趨勢二:人工智能和腦科學相結合,成為大數據分析領域的熱點
近年來,隨著深度學習技術在圖像處理、自然語言處理等領域的成功應用,人工智能又迎來了新一輪的發展浪潮。2016年3月,Google公司的圍棋AI軟件“AlphaGo”戰勝了頂尖職業棋手李世石九段,人類失守被視為“人類最后的智力驕傲”的圍棋領域,引發了全社會的高度關注。此外,2016年恰逢“人工智能60周年”,在計算機領域的各項活動中人工智能都受到了廣泛宣傳。在此背景下,該候選項成為得票的榜眼就不難理解了。
腦科學是以人類大腦為研究對象的學科,在人工智能的研究中有一個流派,傾向于認為對大腦的恰當模擬會是制造出人工智能的關鍵。但事實上,直到今天,人們對人腦工作原理的了解仍然處于初級階段,更談不上對它的精確模擬了。目前,“類腦計算”最成功的例子就是深度學習,如果說基于對腦科學如此初級的認識,就產生了這樣積極的效果,那么在對腦科學持續研究的基礎上進一步優化人工智能理論及應用,其效果就更值得期待。
2.3 ?趨勢三:大數據安全與隱私令人憂慮
這是十大趨勢中唯一影響大數據發展的制約因素。回顧歷年的趨勢預測可以發現,安全和隱私幾乎每年都會排在第3、第4的位置。對安全和隱私的擔憂使得數據開放步伐放慢,使得大家顧慮大數據的深度應用可能會帶來負面價值,使得其成為大數據發展的重要威脅,這是需要解決的一個問題。
事實上,在信息系統建設中安全滯后于業務的發展,已經成為了一種慣例。系統的建設者首先要解決的是業務問題,在安全問題威脅到業務系統的正常運行時,才會考慮解決與之相關的安全問題。回顧大數據生態系統的發展歷程,發現這種規律仍然存在。以Hadoop為例,早期的Hadoop版本中沒有考慮對計算節點的認證、對數據的訪問控制,而是僅僅考慮了分布式計算架構的核心問題。但隨著Hadoop生態系統的逐漸完善,目前已經可以通過Kerberos對節點和用戶進行身份認證;通過Apache Ranger和Apache Sentry對數據進行細粒度的訪問控制;采用Apache Knox作為集群的統一安全訪問入口;通過Apache Eagle進行異常行為檢測和性能監控等。此外,對大數據的脫敏和匿名化技術也逐漸發展成熟。相信隨著大數據應用越來越廣泛、整個生態系統發展會越來越完善,對大數據安全和隱私的擔憂可以通過技術手段逐漸化解。
2.4 ?趨勢四:多學科融合與數據科學興起
該選項同樣是歷年趨勢預測的常客。大數據技術是多學科多技術領域的融合,大數據應用更是與多領域交叉融合,這種交叉融合催生了數據科學的產生和興起。可以看到很多數據相關的專門實驗室、專項研究院所相繼出現,許多高校開展了以大數據技術及應用為特色的學位教育,數據科學作為一門新興學科得到了持續發展。
數據科學的發展,反過來又促進了多學科的融合。許多學科研究的方向表面上看大不相同,背后卻有相同的數據科學和計算科學的基礎。例如醫學和語言學是兩個完全不同的學科,但如果在大數據的基礎上借助人工智能實現智能診療和機器翻譯,所采用的底層技術很大程度上是相通的。預期未來許多前沿學科的發展,都要依賴于本學科領域知識、數據科學與計算科學之間的融合。
2.5 ? 趨勢五:大數據處理多樣化模式并存融合,流計算成主流模式之一
目前,大數據技術的應用已經從互聯網行業逐漸擴展到各個傳統行業,早已不再是什么“新”技術。作為一個可供佐證的論據,美國咨詢公司Gartner在2015年底發布的新興技術成熟度曲線中,首次缺失了大數據的身影。Gartner對此的解釋是大數據的應用已經滲透到各行各業,應用模式也已成熟,不再是新興技術。
由于大數據應用場景復雜多樣,在不同的環境中,對數據產生速度、存儲容量、一致性、實時性、容錯性等方面的要求千差萬別,很難有一個數據處理平臺能滿足所有場景的需求,這就導致了大數據處理模式多樣化的現狀。僅以NoSQL數據庫為例,截至目前開源NoSQL數據庫項目已超過225個,每個項目都有不同的數據處理模式。即使在同一個大數據業務系統建設中,為了適應不同的業務需求而綜合采用SQL、NoSQL和NewSQL等“混搭”的處理架構也已成為常態。
在眾多處理模式中,流計算的發展格外引人注目。隨著大數據應用場景對實時性的要求越來越高,流計算有可能超越傳統Hadoop平臺的批處理模式,成為主流的大數據計算模式。從開源生態圈來看,可供選擇的流計算工具越來越豐富, Spark Streaming、Storm、Flink、Apex等工具快速迭代,Heron等新型工具不斷涌現,Kafka也推出了流計算模塊Kafka Stream;從架構來看,Kappa架構逐漸被接受,批處理成為了流計算的特例。
2.6 ?趨勢六:數據的語義化和知識化是數據價值的基礎問題
數據語義化和知識化是首次進入十大發展趨勢預測的選項。數據語義化是指用特有的屬性格式化文檔內容,使得機器可以理解其內容;數據知識化是指挖掘和展示數據中的信息和知識。從Linked of Data的發展(目前為百億三元組量級),到Google知識圖譜和多種自然語言問答應用的出現,可以推斷廣大網絡/移動用戶在大數據時代獲取信息時,越來越需要數據和信息的知識化組織和語義關聯,也說明普通的個人用戶從大數據中獲得知識和價值是一個基本需求。
2.7 ?趨勢七:開源成為大數據技術生態主流
大數據技術生態是伴隨著Hadoop的開源起步的,預測開源會繼續成為技術生態的主流形式。開源技術的蓬勃發展,大大降低了大數據的應用門檻,有力推動了基于大數據的業務模式在各行各業落地,也給傳統數據管理廠商帶來了嚴峻的挑戰。
目前,大數據生態圈的發展勢頭迅猛,每當現有的技術不能滿足新的應用模式時,總會產生多個與之相關的開源項目,從而帶動新一輪的技術升級。在參與者方面,專業大數據企業、互聯網企業、高等院校、科研機構,乃至某些政府機構和部門,都成了開源軟件的貢獻者。另外也看到,來自中國的開源軟件及貢獻者越來越多地進入了全球大數據生態圈,也促進了大數據技術在國內的發展。
2.8 ? 趨勢八:政府大數據發展迅速
政府大數據同樣是首次進入十大發展趨勢預測的選項,反映了大數據專家委員會的專家們對政府引導大數據應用的期待。政府的各級職能部門在日常管理中積累了大量的數據,特別是一些管理機構獨有的、與人民生活密切相關的數據。筆者預測,一些擁有大數據的政府部門會利用積累的數據,采用大數據技術進行分析,提升社會治理水平。
另一方面,政府的數據是利用全社會的公共資源采集、存儲和管理的,也是一種公共資源,也應當在經過必要的技術處理后為全社會所共享。目前,部分省市已經開放了多種類型的城市數據,中國政府已經有了數據整合的計劃,相信這種趨勢會越來越明顯。
2.9 ? 趨勢九:推動數據立法,重視個人數據隱私
數據立法從另外一個角度上體現了專家們對大數據帶來的隱私問題的擔憂。人們在享受互聯網上各項服務時,越追求服務的便捷化、個性化,就需要提供越多的個人數據,個人面臨的數據隱私風險就越嚴重。可以說,個人數據隱私與個性化服務之間本身就是一對矛盾。
單憑技術手段解決個人數據隱私問題是遠遠不夠的,必須采用技術和管理并重的方式,這就需要推動相關的數據立法。要從數據的全生命周期進行綜合考慮,從法律層面對數據的采集、傳輸、流轉、交易、使用和銷毀等環節做出明確約束,使得個人數據隱私保護有法可依。
2.10 ? 趨勢十:可視化技術和工具提升大數據分析工具的易用性
可視化也連續多年成為十大發展趨勢預測的選項,2016年還占據了榜首的位置。2017年的投票關注度雖有所下降,但還是幸運占據了十大趨勢的最后一席。
可視化是通過把復雜的數據轉化為可以交互的圖形,幫助用戶更好地理解分析數據對象,發現、洞察其內在規律。它使得大數據能夠為更多人理解、使用,使得大數據的使用者從少數專家擴展到更廣泛的民眾。筆者認為可視化技術,尤其是交互式可視化分析技術,是將人的直觀分析能力與機器的強大計算能力相結合的有效方式,是提升大數據分析工具易用性的重要手段。
3 ?大數據發展專項調研分析
3.1 ? 最令人矚目的應用領域
大數據的發展最直接的推動力來自于應用,大專委5年來都做了“最令人矚目的應用領域”的專項調研,結果見表1。這5年以來,互聯網和金融一直是排在前三的領域。尤其近4年的調研,互聯網、金融和健康醫療一直排在前三甲。2017年排在其后的城鎮化和制造業等領域,得票數與前三相去甚遠。而健康醫療超越金融排在第2位,其原因可謂多樣。這也許和互聯網金融及其所面臨的風險有某種關聯度,反映出專家們對應用領域的關注度有了一些微調。
3.2 在數據資源流轉上會有什么舉措
表2是從2015年開始做的關于“數據資源流轉”的專項調研。做研究和應用都有一個切實難題就是“沒有數據”“數據從哪里來”。可以看到,2017年的結果有一個有意思的小變化,“會買數據集”退到第4位,而且票數和前面3項的差距也較大。這解釋為當前大家對數據流轉和數據交易并不抱太大的期望值,數據的流轉并沒有真正形成一個良好的環境和市場。因此,大家轉而傾向于自己搜集數據、下載并獲得的免費數據,而不寄希望于通過交易和價值交換帶來有用的數據集,尤其對量較大的數據集的期望值在降低。當然,“會免費提供數據集”能夠排到第5位,也讓大家嗅到了一點共享的氣息。
這條預測反映的問題其實還是比較嚴重的。數據只有流轉起來才能產生巨大價值,促進并解決這一窘境,對整個大數據領域和數據領域來說極為重要。
3.3 與大數據最匹配的概念
本項也是從2016年開始做的專項調研,見表3。從調研結果來看,與大數據最匹配的概念受2017年度熱門話題影響較大。2016年專家們認為最匹配的概念是“互聯網+”,2017年排名前三的選項中,有兩項都與智能計算相關。很明顯,大家對2017年的預測延續了2016年的熱門話題“人工智能”。
3.4 我國大數據發展的最主要推動者
本項關注到底是什么樣的力量在推動大數據的技術、產業、應用的發展,見表4。2015年調研結果是大型互聯網公司、政府機構和大學科研院所等。在2016年做的第二次調研中,科研院所從名單中消失了,大家認為大學和科研院所并沒有直接帶來資本力量和各種資源。或許受到國家提出的“雙創”概念影響,2016年創業公司成為一個大家寄希望的推動者,但2017年創業公司從這個名單中消失了。這個推動者名單中,只剩下大型互聯網公司和政府機構,其他的票數都很少。這個專項調研結果與大數據發展趨勢十大預測中第8條“政府大數據發展迅速”相符。互聯網應用對大數據的推動力量是毋庸置疑的,真正新的推動力量只有政府機構這個選項。大家期望政府在治理理念上的變化、治理方法上的更新,帶來對大數據應用的真實需求。
3.5 ?大數據發展階段判斷
本項借用Gartner技術成熟度曲線中對技術發展階段的劃分,評估大家對大數據的當前發展階段的看法,見表5。從這6個階段的投票分布來看,整體上大專委的專家們對大數據的發展前景還是持樂觀態度,也就是第2、第3和第6階段占到主流,超過了70%的比例。而且有相當多的專家(26%)認為大數據已經過了幻滅期而進入穩定增長時期,也就是低風險而高價值創造的時期。雖然大數據的泡沫破裂期是不是真的度過,在大專委的專家中還有一定分歧,但總體來說對大數據前景的看好還是毋庸置疑的。
4 ?結束語
縱觀本次2017年度大數據發展趨勢預測,可以看到如下特點。
與純粹技術相關的預測條目比例高。往年預測中有很多關于產業、資本、政策、生態、人才教育、職業等方面的條目,本次預測的十大趨勢中,有7項是關于具體技術的,包括機器學習、人工智能、學科融合、處理多樣性、流計算、語義化、開源、可視化等,這預示著專家們更寄希望于從技術本身尋求突破。
政策法規的動力和規范作用受到關注。從第8和第9條預測可以看出,大專委的專家們除了關注技術突破,還期望在政策和法規上能給予大數據發展有效的幫助。換句話說,大家在技術之外的發展訴求中,在市場力量和政府力量的天平中,更偏重于謀求政府的力量給予支持。當然,這也得益于最近一年政府方面在大數據方向上的明確態度,也得益于全國人民代表大會常務委員會對于《中華人民共和國網絡安全法》的通過和頒布。
對安全和隱私問題的關注成為常態。可以看到,大數據安全和隱私問題條目每年都在預測中出現,在大數據實際應用中這也成為了嚴重的制約因素。對這一問題的解決,需要采用技術和管理相結合的手段。為此,一方面大數據生態圈的安全工具越來越豐富,另一方面對數據立法的期待也出現在了本次預測選項中。
周濤(1979-),男,博士,啟明星辰教授級高級工程師、大數據實驗室副主任,主要研究方向為大數據安全分析、事件關聯分析、入侵檢測等。
潘柱廷(1969-),男,啟明星辰教授級高級工程師、首席戰略官,長期從事信息安全技術和戰略研究工作。中國計算機學會(CCF)常務理事,CCF大數據專家委員會委員兼副秘書長,CCF計算機安全專家委員會常務委員,中國互聯網協會常務理事,云安全聯盟CSA中國區理事。
楊婧(1983-),女,博士,中國科學院計算技術研究所工程師,中國計算機學會大數據專家委員會秘書處工作人員。主要研究方向為數據科學、最優化查詢處理、數據挖掘等。在SIGMOD、SSTD、DASFAA、APWEB、WWW Journal等一流國際期刊和國際會議上發表論文13篇。
程學旗(1972-),男,中國科學院計算技術研究所研究員、博士生導師、副所長,中國科學院網絡數據科學與技術重點實驗室主任。中國計算機學會理事、大數據專家委員會秘書長,中國中文信息學會常務理事、信息檢索與內容安全專委會副主任。主要研究方向為數據科學、大數據引擎系統、Web搜索與挖掘、大數據安全。
總結
以上是生活随笔為你收集整理的【2017年第1期】CCF大专委2017年大数据发展趋势预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BUUCTF-WEB:[极客大挑战 20
- 下一篇: BUUCTF-WEB:[极客大挑战 20