近二十年大数据行业怎么样?解决了什么?经历了什么?
導(dǎo)讀:2001-2020,21世紀(jì)的前20年已接近尾聲,大數(shù)據(jù)從無到有,從火爆到被質(zhì)疑。本文帶你了解這20年里,大數(shù)據(jù)解決了哪些問題、面臨著哪些挑戰(zhàn)?
?
作者:阿爾伯特·比費(fèi)特(Albert Bifet)、理查德·戈華達(dá)(Richard Gavaldà)、杰弗里·福爾摩斯(Geoffrey Holmes)、伯恩哈德·普法林格(Bernhard Pfahringer)
譯者:陳瑤、姚毓夏
?
當(dāng)今世界,每一天人們通過各種各樣的電子終端制造海量的數(shù)據(jù),這些數(shù)據(jù)有不同的形式,并且來自于一些獨(dú)立的或關(guān)聯(lián)的應(yīng)用。
?
我們現(xiàn)有的數(shù)據(jù)處理、分析、存儲(chǔ)和理解能力,在這股大數(shù)據(jù)的洪流面前顯得力不從心。社交網(wǎng)絡(luò)應(yīng)用誕生普及以來,用戶可以隨心所欲地發(fā)布內(nèi)容,這更加速了數(shù)據(jù)的快速增長(zhǎng),讓本已擁有海量數(shù)據(jù)的互聯(lián)網(wǎng)變得更為龐大。
?
不僅如此,手機(jī)里的感應(yīng)器正從我們身上實(shí)時(shí)讀取各個(gè)方面的數(shù)據(jù)。一部手機(jī)可以處理的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不止通話記錄這么簡(jiǎn)單,畢竟通話記錄的發(fā)明只是為了方便結(jié)賬。
?
可以預(yù)見的是物聯(lián)網(wǎng)(IoT)會(huì)把數(shù)據(jù)規(guī)模提升到一個(gè)前所未有的高度。到時(shí)候,任何人和任何機(jī)器(不論是家用咖啡機(jī)還是轎車和公共汽車,不論是在火車站還是在機(jī)場(chǎng))都有著松散的聯(lián)系。
?
數(shù)以萬億計(jì)的相連物體無疑會(huì)產(chǎn)生巨大的信息海洋,而我們必須大海撈針,去發(fā)現(xiàn)有價(jià)值的信息,從而提升生活質(zhì)量,讓世界變得更好。例如,每天早上起床后,為了最優(yōu)化通勤時(shí)間,信息處理系統(tǒng)需要綜合處理交通、天氣、建筑、警察管制和你的日程安排信息,并在有限的時(shí)間里進(jìn)行深度優(yōu)化。
?
為了處理多到讓人難以置信的數(shù)據(jù),我們需要快捷高效、合理利用資源的實(shí)時(shí)處理方法。
?
01 大數(shù)據(jù)
?
用一個(gè)具體的數(shù)據(jù)大小來定義“大數(shù)據(jù)”是沒有意義的,哪怕用拍字節(jié)(PB,相當(dāng)于一千兆字節(jié))也不夠。比較有意義的定義是大數(shù)據(jù)通常太大而難以用常規(guī)算法和技術(shù)來管理,尤其是當(dāng)我們要從中提取知識(shí)的時(shí)候。
?
二十年前人們還在為吉字節(jié)(GB)量的數(shù)據(jù)掙扎,而寫本文的時(shí)候糾結(jié)的單位已經(jīng)變成了下表中的太字節(jié)(TB)和拍字節(jié)(PB)。毫無疑問二十幾年后,我們糾結(jié)的數(shù)據(jù)單位會(huì)變成表格更下面的幾行。
?
(單位:字節(jié))
?
2001年,在Gartner工作的分析師Doug Laney用3個(gè)V特性定義了大數(shù)據(jù)管理:
?
-
數(shù)據(jù)容量(volume):數(shù)據(jù)量前所未有且持續(xù)增長(zhǎng),但是我們能處理的數(shù)據(jù)量相對(duì)而言并沒有增加。
-
數(shù)據(jù)種類(variety):數(shù)據(jù)種類繁多,有文字、傳感器數(shù)據(jù)、音頻、視頻、圖片等,我們要從所有這些數(shù)據(jù)中提取信息。
-
數(shù)據(jù)運(yùn)動(dòng)(velocity):數(shù)據(jù)源源不斷,我們想從中實(shí)時(shí)獲取有用的信息。
?
而后其他V特性又被陸續(xù)添加進(jìn)來:
?
-
數(shù)據(jù)可變性(variability):數(shù)據(jù)結(jié)構(gòu)或者說用戶解釋數(shù)據(jù)的方法,一直在變化。
-
數(shù)據(jù)價(jià)值(value):數(shù)據(jù)有用之處僅僅在于其能導(dǎo)向更佳的決策并最終贏得優(yōu)勢(shì)。
-
數(shù)據(jù)可靠性(validity and veracity):有些數(shù)據(jù)不完全可靠,必須要控制這些不確定性。
?
Gartner公司在2012年把大數(shù)據(jù)的定義總結(jié)為:
?
體量龐大、高速變動(dòng)和種類繁多的信息資產(chǎn),需要采用經(jīng)濟(jì)型和創(chuàng)新型的信息處理方式,以增強(qiáng)信息洞察及決策的能力。
?
大數(shù)據(jù)的應(yīng)用應(yīng)該讓人們獲得更好的服務(wù)、更佳的消費(fèi)體驗(yàn)和更高的健康質(zhì)量:
?
-
商業(yè):個(gè)性化體驗(yàn)和客戶流失檢測(cè)。
-
科技:把處理時(shí)間的單位從小時(shí)級(jí)降低到秒級(jí)。
-
健康:挖掘醫(yī)療記錄和基因數(shù)據(jù),以監(jiān)控病情、提升健康水平。
-
智慧城市:專注發(fā)展可持續(xù)經(jīng)濟(jì)和高質(zhì)量生活,合理有效地利用自然資源。
?
舉一個(gè)大數(shù)據(jù)挖掘的應(yīng)用案例,我們來看一下Global Pulse是如何工作的。Global Pulse是一個(gè)聯(lián)合國(guó)的倡議組織,旨在利用大數(shù)據(jù)改善發(fā)展中國(guó)家人民的生活質(zhì)量 。該組織由大數(shù)據(jù)創(chuàng)新實(shí)驗(yàn)室構(gòu)成,其大數(shù)據(jù)挖掘策略如下:
?
研究新的方法和技術(shù)來分析實(shí)時(shí)電子數(shù)據(jù),盡早檢測(cè)出潛在的漏洞。
組裝一個(gè)免費(fèi)、開源的技術(shù)工具套件,來分析實(shí)時(shí)數(shù)據(jù)并分享研究假設(shè)。
建立綜合的全球Pulse實(shí)驗(yàn)室網(wǎng)絡(luò),從國(guó)家層面試行數(shù)據(jù)挖掘策略。
?
大數(shù)據(jù)挖掘的改革并不僅限于工業(yè)化國(guó)家,因?yàn)槭謾C(jī)在發(fā)展國(guó)家也逐漸普及開來。全球超過50億部的手機(jī)中,大約80%都源自發(fā)展中國(guó)家。
?
1. 工具:開源革命
?
大數(shù)據(jù)的現(xiàn)象本質(zhì)上和開源軟件革命息息相關(guān)。大公司比如雅虎、推特、領(lǐng)英、谷歌和Facebook都從開源項(xiàng)目中受益,并且對(duì)其做出貢獻(xiàn),例如:
?
-
Apache Hadoop
?
這是一個(gè)基于MapReduce編程模型和Hadoop分布式文件系統(tǒng)(HDFS)的平臺(tái),用于運(yùn)行數(shù)據(jù)密集型的分布式應(yīng)用。用戶可以在Hadoop上快速開發(fā)應(yīng)用,在計(jì)算機(jī)集群上并行處理海量數(shù)據(jù)。
?
Apache Hadoop的相關(guān)項(xiàng)目:Apache Pig、Apache Hive、Apache HBase、Apache ZooKeeper、Apache Cassandra、Cascading、Scribe和Apache Mahout都是主要基于Hadoop,具有拓展性的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘開源軟件。
?
-
Apache Spark
?
這是一個(gè)運(yùn)行在Hadoop架構(gòu)上,專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的數(shù)據(jù)處理引擎。Spark提供了大量的庫,包括SQL、DataFrames、MLlib for machine learning、GraphX和Spark Streaming。開發(fā)者可以在同一個(gè)應(yīng)用中無縫組合使用這些庫。
?
-
Apache Flink
?
這是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎,為數(shù)據(jù)流的分布式計(jì)算提供了數(shù)據(jù)分布、數(shù)據(jù)通信和容錯(cuò)機(jī)制。基于流執(zhí)行引擎,Flink提供了幾個(gè)易于開發(fā)應(yīng)用的API。如果說Apache Spark的Spark Streaming是個(gè)可以用微批次數(shù)據(jù)來模擬流處理的批處理引擎,那么Apache Flink就是可以做到批處理的流處理引擎。
?
-
Apache Storm
?
這是一個(gè)分布式數(shù)據(jù)流處理系統(tǒng),同Apache S4及Apache Samza類似。
?
-
TensorFlow
?
這是一個(gè)用機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的開源包。
?
2. 大數(shù)據(jù)帶來的挑戰(zhàn)
?
由于數(shù)據(jù)的本質(zhì):龐大、多樣、變化,大數(shù)據(jù)的管理和分析在未來仍有諸多挑戰(zhàn)。接下來幾年,研究者和從業(yè)者需要處理的部分挑戰(zhàn)如下:
?
-
架構(gòu)分析
?
目前尚不清楚如何搭建最優(yōu)化的架構(gòu)分析系統(tǒng),用于同時(shí)處理歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)。第一個(gè)架構(gòu)是Nathan Martz提出的Lambda架構(gòu)。
?
Lambda架構(gòu)劃成三層:批處理層、服務(wù)層和速度層,可以在任何數(shù)據(jù)上實(shí)時(shí)運(yùn)行任意功能。它在同一個(gè)系統(tǒng)里整合了Hadoop和Storm,分別用于批處理層和速度層的計(jì)算。一個(gè)更近期的方案是由領(lǐng)英的Kreps提出的Kappa架構(gòu)。它簡(jiǎn)化了Lambda架構(gòu),刪去了批量處理系統(tǒng)。
?
-
評(píng)估
?
有效的評(píng)估方法是得出重要的統(tǒng)計(jì)結(jié)論,并且避免概率的陷阱。如果“多重假設(shè)問題”沒有處理好,很容易像Efron說的那樣,一下子在大數(shù)據(jù)集和成千上萬亟待解答的問題上出錯(cuò)。
?
在進(jìn)行數(shù)據(jù)評(píng)估時(shí),更重要的是避免陷入紙上談兵的誤區(qū),即只注重技術(shù)上的衡量標(biāo)準(zhǔn),比如錯(cuò)誤率和速度,而忽視了對(duì)現(xiàn)實(shí)的影響。Wagstaff曾討論過,想要駁倒那些覺得大數(shù)據(jù)徒有虛名的人,唯一的辦法就是定期發(fā)布達(dá)到挑戰(zhàn)性問題的合理標(biāo)準(zhǔn)的應(yīng)用,就像他的論文里解釋的那樣。
?
-
分布式挖掘
?
許多數(shù)據(jù)挖掘技術(shù)都在分布式挖掘上也有一定用途。為了開發(fā)出這些技術(shù)的分布式版本,需要更多實(shí)驗(yàn)研究和理論分析。
?
-
數(shù)據(jù)變化
?
數(shù)據(jù)可能隨時(shí)變化,因此大數(shù)據(jù)挖掘技術(shù)要注重靈活應(yīng)變,有時(shí)還要能明確偵測(cè)到變化。正是這種需求促進(jìn)了本書的許多數(shù)據(jù)流挖掘技術(shù)的開發(fā)。
?
-
數(shù)據(jù)壓縮
?
存儲(chǔ)空間的大小和大數(shù)據(jù)處理息息相關(guān)。節(jié)省空間有兩個(gè)主要的途徑:壓縮,無損于信息;或者取樣,選擇具有代表性的數(shù)據(jù)。壓縮耗時(shí)更多而需要的空間更少,相當(dāng)于化時(shí)間為空間。取樣雖然有損信息,但是可以節(jié)省數(shù)量級(jí)的空間。比如Feldman等人就用核集(coreset)簡(jiǎn)化了大數(shù)據(jù)的問題。核集是數(shù)據(jù)集的一個(gè)小子集,能夠可靠地估算原本的數(shù)據(jù)。
?
-
數(shù)據(jù)可視化
?
大數(shù)據(jù)分析還有一個(gè)主要問題就是如何可視化結(jié)果,其挑戰(zhàn)在于要用易于理解的方法表現(xiàn)大量數(shù)據(jù)里的信息。就像The Human Face of Big Data這本書所說,大數(shù)據(jù)可視化需要新的技術(shù)和框架來呈現(xiàn)故事。
?
-
隱藏的大數(shù)據(jù)
?
大部分原本有用的數(shù)據(jù)實(shí)際上都沒發(fā)揮作用,因?yàn)樗鼈儧]加標(biāo)簽、基于文件或者非結(jié)構(gòu)化。2012年IDC對(duì)大數(shù)據(jù)的研究解釋道,如果能加上標(biāo)簽和分析,2012年里有23%(632艾字節(jié))的數(shù)字世界能夠被用于大數(shù)據(jù)。然而那時(shí)只有3%可能有用的數(shù)據(jù)被加上了標(biāo)簽,被分析的數(shù)據(jù)就更少了。
?
這個(gè)數(shù)字這幾年可能還在下降。開放數(shù)據(jù)和語義網(wǎng)運(yùn)動(dòng)的出現(xiàn)讓我們意識(shí)到了這個(gè)問題,并且改善了情況。
?
?
02 實(shí)時(shí)分析
?
一個(gè)大數(shù)據(jù)的著名例子是實(shí)時(shí)分析。對(duì)一個(gè)組織來說,重要的不僅是立即獲得查詢結(jié)果,更是根據(jù)剛剛產(chǎn)生的數(shù)據(jù)進(jìn)行查詢。
?
1. 數(shù)據(jù)流
?
數(shù)據(jù)流是一個(gè)用于支持實(shí)時(shí)分析的抽象的算法概念。數(shù)據(jù)流是指一系列的數(shù)據(jù)項(xiàng),可以是無限的。每一個(gè)數(shù)據(jù)項(xiàng)都有時(shí)間戳,所以也就有了時(shí)間順序。數(shù)據(jù)項(xiàng)接踵而至,而我們想要建立并維護(hù)這些實(shí)時(shí)數(shù)據(jù)項(xiàng)的模型,比如模式或者預(yù)測(cè)者。
?
處理數(shù)據(jù)流的時(shí)候,在算法方面有兩個(gè)主要挑戰(zhàn):數(shù)據(jù)流數(shù)據(jù)龐大并且流動(dòng)速度快,而我們需要從中實(shí)時(shí)提取信息。這意味著通常需要接受近似的解決方案,以便節(jié)省時(shí)間和內(nèi)存;另一個(gè)挑戰(zhàn)是數(shù)據(jù)會(huì)演變,所以我們建立的模型要能適應(yīng)數(shù)據(jù)里的變化。
?
2. 時(shí)間和內(nèi)存
?
準(zhǔn)確度、時(shí)間和內(nèi)存是數(shù)據(jù)流挖掘的三個(gè)主要維度:我們希望得到用最少時(shí)間和最小總內(nèi)存,獲取最高準(zhǔn)確度的方法。
?
只要把時(shí)間和內(nèi)存合并到單一成本測(cè)量,就完全有可能把評(píng)估降維到二維任務(wù)。另外要注意的還有,與傳統(tǒng)的數(shù)據(jù)挖掘類似,因?yàn)楦咚贁?shù)據(jù)流無法緩沖,所以處理單個(gè)數(shù)據(jù)項(xiàng)的時(shí)間和總時(shí)間是相關(guān)的。
?
3. 應(yīng)用一覽
?
產(chǎn)生數(shù)據(jù)流的場(chǎng)景有很多,這里我們舉幾個(gè)例子:
?
-
傳感器數(shù)據(jù)和物聯(lián)網(wǎng):每天越來越多的傳感器用于工業(yè)中的過程監(jiān)控和質(zhì)量改善。城市也開始部署龐大的傳感器網(wǎng)絡(luò),用于監(jiān)控人流的移動(dòng),檢查道路和橋梁的健康情況、市內(nèi)交通和人口的重要常數(shù)(vital constant)等。
-
遠(yuǎn)程通信:遠(yuǎn)程通信公司有大量的手機(jī)通話記錄。現(xiàn)在,手機(jī)通話和位置也變成了需要實(shí)時(shí)處理的大數(shù)據(jù)來源。
-
社交媒體:在社交網(wǎng)站比如Facebook、推特、領(lǐng)英和Instagram上,用戶持續(xù)產(chǎn)生互動(dòng)和貢獻(xiàn)的數(shù)據(jù)。隨之產(chǎn)生了兩個(gè)需要實(shí)時(shí)數(shù)據(jù)分析的問題:話題社群的發(fā)現(xiàn)和情感分析。
-
市場(chǎng)和電子商務(wù):銷售行業(yè)正在實(shí)時(shí)收集大量交易數(shù)據(jù),分析其背后價(jià)值,并且探測(cè)電子交易中的詐騙。
-
健康護(hù)理:照料病人的時(shí)候,醫(yī)院收集大量時(shí)效性很強(qiáng)的數(shù)據(jù),并且監(jiān)控病人的重要指標(biāo),比如血壓、心率和體溫。遠(yuǎn)程醫(yī)療還會(huì)監(jiān)控病人在家的數(shù)據(jù),可能用不同的傳感器檢測(cè)他們的日常活動(dòng)。這樣的系統(tǒng)還可以處理實(shí)驗(yàn)測(cè)試結(jié)果、病例報(bào)告、X光和數(shù)字圖片。有些數(shù)據(jù)可用于實(shí)時(shí)提供病人身體情況變化的警報(bào)。
-
流行病和災(zāi)害:源于網(wǎng)絡(luò)的數(shù)據(jù)流可以用來探測(cè)流行病和自然災(zāi)害,還可以和各種官方中心的統(tǒng)計(jì)結(jié)合,用于進(jìn)行疾病和災(zāi)害的控制和預(yù)防。
-
計(jì)算機(jī)安全:計(jì)算機(jī)系統(tǒng)要防范盜竊和一切對(duì)硬件、軟件和信息的傷害,還要防范來自系統(tǒng)內(nèi)部服務(wù)的打斷和誤導(dǎo),特別是內(nèi)在的威脅檢測(cè)和入侵檢測(cè)。
-
電力需求預(yù)測(cè):供應(yīng)商需要提前知道客戶的用電情況,而這個(gè)指數(shù)會(huì)隨著天數(shù)、年數(shù)、地理、天氣、經(jīng)濟(jì)狀況、用戶習(xí)慣和其他因素改變。要從大量分散的數(shù)據(jù)中預(yù)測(cè)結(jié)果是一個(gè)相當(dāng)復(fù)雜的問題。
?
關(guān)于作者:Albert Bifet,巴黎高等電信學(xué)院的計(jì)算機(jī)科學(xué)教授,數(shù)據(jù)、智能和圖形組的負(fù)責(zé)人,他的研究興趣主要集中在人工智能、大數(shù)據(jù)科學(xué)和數(shù)據(jù)流的機(jī)器學(xué)習(xí)方面。
Richard Gavalda,加泰羅尼亞理工大學(xué)的計(jì)算機(jī)科學(xué)教授。
Geoffrey Holmes,懷卡托大學(xué)的計(jì)算機(jī)科學(xué)系主任和教授。
Bernhard Pfahringer,奧克蘭大學(xué)的計(jì)算機(jī)科學(xué)教授。
總結(jié)
以上是生活随笔為你收集整理的近二十年大数据行业怎么样?解决了什么?经历了什么?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据架构如何做到流批一体?【对于Fli
- 下一篇: 中国顶级互联网公司的技术组织架构调整预示