日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用

發(fā)布時(shí)間:2025/3/15 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2015年《大數(shù)據(jù)》高被引論文Top10文章展示

【編者按】本刊將陸續(xù)發(fā)布2015年《大數(shù)據(jù)》高被引論文Top10的文章,歡迎大家關(guān)注!本文為高被引Top10論文的No.9,刊登在2015年第1期。其引用格式如下:

朱揚(yáng)勇, 熊贇. 大數(shù)據(jù)是數(shù)據(jù)、技術(shù), 還是應(yīng)用[J]. 大數(shù)據(jù), 2015007.

ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.

朱揚(yáng)勇1,2,熊 ?赟1,2

1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 ?201203

2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室(復(fù)旦大學(xué)),上海 ?201203

摘要:通常認(rèn)為大數(shù)據(jù)是一個(gè)現(xiàn)有技術(shù)難以處理的復(fù)雜而龐大的數(shù)據(jù)集,這將導(dǎo)致一個(gè)謬誤的出現(xiàn):大數(shù)據(jù)都不能被處理,能處理的都不是大數(shù)據(jù)。顯然,如何定義大數(shù)據(jù)是一個(gè)問(wèn)題。分析了已有的大數(shù)據(jù)定義和現(xiàn)象,發(fā)現(xiàn)數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的三要素,定義大數(shù)據(jù)是為決策提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。其中,大數(shù)據(jù)集是指一個(gè)決策問(wèn)題所用到的所有可能的數(shù)據(jù),而不是一個(gè)領(lǐng)域的所有數(shù)據(jù)。還給出了大數(shù)據(jù)應(yīng)用遇到的問(wèn)題及技術(shù)挑戰(zhàn),并指出大數(shù)據(jù)未來(lái)的研究方向。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)科學(xué);數(shù)據(jù)界

Defining big data

ZHU Yangyong1,2, XIONG Yun1,2

1. School of Computer Science, Fudan University, Shanghai 201203, China

2. Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China

Abstract:?Generally, big data is regarded as a term about data sets so large or complex that conventional data technologies cannot handle. This statement of big data leads to confusion: none of big data has been handled by existing data technologies; or none of current successful data applications can be called as big data. Therefore, what is the best way to define big data becomes a problem. Data, technology, and application were regarded as three associated key factors of big data by analyzing the state-of-the-art of big data. A comprehensive definition on big data was defined as the umbrella of big data set, big data technology, and big data application. Here, big data set means all data that can be acquired and were related to one decision-making application instead of all data in an area or an enterprise. In addition, the issues in big data applications and the main challenges in big data technologies were discussed. Finally, the future directions of big data research were presented including data science and the technologies of big data reservation and development.

Key words:?big data, data science, data nature


1 ?引言

1997年NASA研究員Michael Cox和David Ellsworth在IEEE第8屆國(guó)際可視化學(xué)術(shù)會(huì)議中首先提出了“大數(shù)據(jù)”術(shù)語(yǔ)[1],但并沒(méi)有引起太多重視;2008年9月《Nature》學(xué)術(shù)雜志出版了一期大數(shù)據(jù)專刊[2],使得大數(shù)據(jù)在科學(xué)研究領(lǐng)域得到了高度重視;2012年3月美國(guó)政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2],大數(shù)據(jù)引起了主要國(guó)家和全社會(huì)的重視。一場(chǎng)大數(shù)據(jù)引發(fā)的變革滲透到各個(gè)角落。

一個(gè)概念讓政治界、商業(yè)界、學(xué)術(shù)界的各個(gè)領(lǐng)域都為之興奮不已,超過(guò)了當(dāng)年計(jì)算機(jī)的誕生,也超過(guò)了互聯(lián)網(wǎng)的誕生。大數(shù)據(jù)引起政治界重視,世界強(qiáng)國(guó)推出大數(shù)據(jù)戰(zhàn)略,說(shuō)明大數(shù)據(jù)關(guān)系到國(guó)家競(jìng)爭(zhēng)力、關(guān)系到國(guó)家發(fā)展、關(guān)系到國(guó)民大眾;大數(shù)據(jù)引起商業(yè)界重視,跨國(guó)公司率先運(yùn)用大數(shù)據(jù),說(shuō)明大數(shù)據(jù)已經(jīng)實(shí)用,商業(yè)價(jià)值重大,是企業(yè)競(jìng)爭(zhēng)的利器;大數(shù)據(jù)引起學(xué)術(shù)界重視,說(shuō)明大數(shù)據(jù)科學(xué)問(wèn)題眾多,需要科技攻關(guān)。

然而,關(guān)于什么是大數(shù)據(jù)卻眾說(shuō)紛紜,以至于出現(xiàn)一些相互矛盾的現(xiàn)象,最典型的矛盾現(xiàn)象是:技術(shù)領(lǐng)域說(shuō)大數(shù)據(jù)是當(dāng)前技術(shù)所不能解決的,而應(yīng)用領(lǐng)域卻給出了大量關(guān)于大數(shù)據(jù)成功應(yīng)用的案例。“大數(shù)據(jù)都不能被處理,能夠處理的都不是大數(shù)據(jù)”或者“大數(shù)據(jù)都不能用,能用的都不是大數(shù)據(jù)”這是一個(gè)謬誤。事實(shí)上,到目前為止,大數(shù)據(jù)還沒(méi)有一致的定義,政治界、商業(yè)界、學(xué)術(shù)界按照各自的理解推進(jìn)大數(shù)據(jù)。甚至在信息技術(shù)領(lǐng)域,大數(shù)據(jù)概念也是爭(zhēng)論不休的,各研究方向也都帶上了大數(shù)據(jù)的帽子,似乎大數(shù)據(jù)技術(shù)將取代信息技術(shù),這顯然是有問(wèn)題的。

本文探尋大數(shù)據(jù)概念的內(nèi)涵、大數(shù)據(jù)問(wèn)題和技術(shù)挑戰(zhàn),給出了一個(gè)大數(shù)據(jù)的定義,指出了大數(shù)據(jù)應(yīng)用面臨的6個(gè)問(wèn)題(以下簡(jiǎn)稱“6用問(wèn)題”),分析了信息化和大數(shù)據(jù)的差異,提出了“6用問(wèn)題”帶來(lái)的技術(shù)挑戰(zhàn),并進(jìn)行了展望。


2 ?大數(shù)據(jù)概念

嚴(yán)格地說(shuō),到目前為止,還沒(méi)有一個(gè)明確的大數(shù)據(jù)定義,各領(lǐng)域按照自己的理解來(lái)研究和發(fā)展大數(shù)據(jù)。最直接的問(wèn)題是大數(shù)據(jù)是數(shù)據(jù)還是技術(shù)?顯然,這個(gè)問(wèn)題并不容易回答。

2.1 ?現(xiàn)有定義的問(wèn)題

目前,大數(shù)據(jù)有如下幾個(gè)定義。

Michael Cox和David Ellsworth在提出“大數(shù)據(jù)”術(shù)語(yǔ)時(shí)指出:數(shù)據(jù)大到內(nèi)存、本地磁盤甚至遠(yuǎn)程磁盤都不能處理,這類數(shù)據(jù)可視化的問(wèn)題稱為大數(shù)據(jù)[1]

維基百科的定義[3]:大數(shù)據(jù)是一個(gè)復(fù)雜而龐大的數(shù)據(jù)集,以至于很難用現(xiàn)有的數(shù)據(jù)庫(kù)管理系統(tǒng)和其他數(shù)據(jù)處理技術(shù)來(lái)采集、存儲(chǔ)、查找、共享、傳送、分析和可視化。

4V定義[4,5]:大數(shù)據(jù)為具有4V特征的數(shù)據(jù)集。4V特征是指:價(jià)值(value),數(shù)據(jù)價(jià)值巨大但價(jià)值密度低;時(shí)效(velocity),數(shù)據(jù)處理分析要在希望的時(shí)間內(nèi)完成;多樣(variety),數(shù)據(jù)來(lái)源和形式都是多樣的;大量(volume),就目前技術(shù)而言,數(shù)據(jù)量要達(dá)到PB級(jí)別以上。

香山科學(xué)會(huì)議定義[6]:2013年5月召開(kāi)的第462次香山科學(xué)會(huì)議給出了技術(shù)型和非技術(shù)型兩個(gè)定義。

●??技術(shù)型定義:大數(shù)據(jù)是來(lái)源多樣、類型多樣、大而復(fù)雜、具有潛在價(jià)值,但難以在期望時(shí)間內(nèi)處理和分析的數(shù)據(jù)集。

●??非技術(shù)型定義:大數(shù)據(jù)是數(shù)字化生存時(shí)代的新型戰(zhàn)略資源,是驅(qū)動(dòng)創(chuàng)新的重要因素,正在改變?nèi)祟惖纳a(chǎn)和生活方式。

這些定義總體來(lái)講是從技術(shù)領(lǐng)域看問(wèn)題的。可以看出,大數(shù)據(jù)是難以處理的數(shù)據(jù)集,即大數(shù)據(jù)是一個(gè)數(shù)據(jù)集。但是,如果大數(shù)據(jù)只是一個(gè)數(shù)據(jù)集,那么處理大數(shù)據(jù)的技術(shù)叫大數(shù)據(jù)技術(shù)嗎?與之前的信息技術(shù)是否有區(qū)別?在應(yīng)用方面更難說(shuō)清楚。例如,是否可以說(shuō)“用大數(shù)據(jù)解決問(wèn)題”?顯然,一個(gè)數(shù)據(jù)集是不能解決任何問(wèn)題的。所以,大數(shù)據(jù)不僅僅是數(shù)據(jù)集,但也不僅僅是技術(shù),還有大數(shù)據(jù)應(yīng)用。

上述定義最大的問(wèn)題是,均認(rèn)為大數(shù)據(jù)是指當(dāng)前技術(shù)難以(所不能)處理的數(shù)據(jù)集。但當(dāng)技術(shù)改進(jìn)了,能夠處理了,還是不是大數(shù)據(jù)?于是,一個(gè)典型的矛盾現(xiàn)象出現(xiàn):技術(shù)領(lǐng)域說(shuō)大數(shù)據(jù)是當(dāng)前技術(shù)所不能解決的數(shù)據(jù)集,而應(yīng)用領(lǐng)域卻給出了大量關(guān)于大數(shù)據(jù)成功應(yīng)用的案例。這是對(duì)大數(shù)據(jù)的謬誤:大數(shù)據(jù)是當(dāng)前技術(shù)難以(所不能)處理的數(shù)據(jù)集,那么,所有能夠被處理的數(shù)據(jù)集都不是大數(shù)據(jù),所以沒(méi)有大數(shù)據(jù)的成功應(yīng)用,即“大數(shù)據(jù)都不能被處理,能夠處理的都不是大數(shù)據(jù)”或者“大數(shù)據(jù)都不能用,能用的都不是大數(shù)據(jù)”。

另外一個(gè)現(xiàn)象是大數(shù)據(jù)之爭(zhēng),即常常有各種領(lǐng)域的人在一起爭(zhēng)論什么是大數(shù)據(jù)。由于技術(shù)領(lǐng)域和非技術(shù)領(lǐng)域?qū)Υ髷?shù)據(jù)的理解不同,這兩個(gè)領(lǐng)域談?wù)摰膶?duì)象其實(shí)是不同的,技術(shù)領(lǐng)域說(shuō)的大數(shù)據(jù)是指大數(shù)據(jù)技術(shù),而應(yīng)用領(lǐng)域說(shuō)的大數(shù)據(jù)是指大數(shù)據(jù)應(yīng)用。事實(shí)上,經(jīng)過(guò)長(zhǎng)期信息化建設(shè),幾乎所有的行業(yè)和單位都積累了龐大的數(shù)據(jù)資源,所以,數(shù)據(jù)和基于數(shù)據(jù)的應(yīng)用涉及幾乎所有的人。可以將大數(shù)據(jù)人群分成3類:有大數(shù)據(jù)的人群、做大數(shù)據(jù)的人群和用大數(shù)據(jù)的人群,很多時(shí)候大家在談?wù)摯髷?shù)據(jù)的時(shí)候,實(shí)際上是在談?wù)摬煌臇|西,即有大數(shù)據(jù)的人談?wù)摂?shù)據(jù)資源及其規(guī)模、做大數(shù)據(jù)的人談?wù)摯髷?shù)據(jù)帶來(lái)的技術(shù)挑戰(zhàn)、用大數(shù)據(jù)的人則談?wù)摯髷?shù)據(jù)帶來(lái)的決策變革,即3類人群談?wù)摰氖遣煌拇髷?shù)據(jù)概念。

出現(xiàn)大數(shù)據(jù)謬誤和大數(shù)據(jù)之爭(zhēng)的現(xiàn)象源于大數(shù)據(jù)概念不清晰,需要一個(gè)清晰的定義來(lái)避免這些現(xiàn)象的發(fā)生。

2.2 ?數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的三要素

大數(shù)據(jù)到底是數(shù)據(jù)、技術(shù),還是應(yīng)用?

大數(shù)據(jù)首先是一個(gè)技術(shù)術(shù)語(yǔ),來(lái)自技術(shù)領(lǐng)域,或者更準(zhǔn)確一點(diǎn)是來(lái)自IT(information technology)領(lǐng)域。自Michael Cox和David Ellsworth[1]于1997年首次提出“大數(shù)據(jù)”以來(lái),在術(shù)語(yǔ)發(fā)展過(guò)程中,始終提及的大數(shù)據(jù)問(wèn)題是指“現(xiàn)有技術(shù)所不能處理的數(shù)據(jù)集”,即大數(shù)據(jù)是一個(gè)技術(shù)挑戰(zhàn)。直到2012年3月美國(guó)政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2],大數(shù)據(jù)一詞開(kāi)始在非技術(shù)領(lǐng)域使用。大數(shù)據(jù)在非技術(shù)領(lǐng)域的主要表述為:大數(shù)據(jù)是決策方式的重大變革,決策依靠數(shù)據(jù)分析而不是直覺(jué)經(jīng)驗(yàn),主要的內(nèi)涵是“大數(shù)據(jù)改變了人類生產(chǎn)和生活方式,是一次大變革”[6,7]

大數(shù)據(jù)的4V定義涵蓋了所有技術(shù)型定義,也是影響最廣泛的,但在具體理解和具體問(wèn)題面前,還是引起了很多爭(zhēng)論。例如,常常會(huì)爭(zhēng)論一個(gè)數(shù)據(jù)集是不是大數(shù)據(jù),即夠不夠大,是否達(dá)到了PB級(jí)別。顯然,這只是問(wèn)題的表面。問(wèn)題的核心是:一個(gè)數(shù)據(jù)集是否有價(jià)值、是否值得去開(kāi)發(fā)、能否挖掘出價(jià)值;能否在希望的時(shí)間內(nèi)挖掘出價(jià)值。因此,價(jià)值和時(shí)效是大數(shù)據(jù)的核心內(nèi)涵,是必須的。

(1)關(guān)于價(jià)值:如果一個(gè)數(shù)據(jù)集沒(méi)有價(jià)值,就不需要關(guān)注;如果一個(gè)數(shù)據(jù)集的價(jià)值密度高,即大部分?jǐn)?shù)據(jù)都是有價(jià)值的,直接讀取數(shù)據(jù)集就能獲得價(jià)值,可以成功應(yīng)用,沒(méi)有技術(shù)難度。然而,通常情況是價(jià)值巨大但價(jià)值密度低,像大海撈針,因此大數(shù)據(jù)是一個(gè)很難的技術(shù)挑戰(zhàn)。

(2)關(guān)于時(shí)效:所有的大數(shù)據(jù)處理和分析都應(yīng)該在希望的時(shí)間內(nèi)做完,如果過(guò)了希望的時(shí)間就沒(méi)有意義了,這也是一個(gè)技術(shù)挑戰(zhàn)。

從上述定義中可以看出:首先,所有的定義都談到了數(shù)據(jù),一個(gè)龐大的數(shù)據(jù)集;其次,技術(shù)方面強(qiáng)調(diào)了大數(shù)據(jù)是當(dāng)前技術(shù)所不能的,這里的“不能”是指“不能在希望的時(shí)間內(nèi)”做到,是技術(shù)問(wèn)題;第三,大數(shù)據(jù)是用來(lái)解決決策應(yīng)用問(wèn)題的,是一個(gè)基于數(shù)據(jù)集和數(shù)據(jù)技術(shù)的決策應(yīng)用,改變著生產(chǎn)和生活中的決策方式。因此,數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的3個(gè)要素,數(shù)據(jù)隱含價(jià)值、技術(shù)發(fā)現(xiàn)價(jià)值、應(yīng)用實(shí)現(xiàn)價(jià)值。

2.3 ?定義大數(shù)據(jù)

應(yīng)該如何定義大數(shù)據(jù)呢?首先,不能把一個(gè)技術(shù)挑戰(zhàn)定義為大數(shù)據(jù),否則,一旦技術(shù)挑戰(zhàn)解決了,就不是大數(shù)據(jù)了,而且挑戰(zhàn)本身不是一個(gè)事物,不能命名;其次,也不能把一個(gè)數(shù)據(jù)集定義為大數(shù)據(jù),數(shù)據(jù)集本身只是隱含價(jià)值,不能直接發(fā)揮作用;最后,更不能將一個(gè)數(shù)據(jù)應(yīng)用定義為大數(shù)據(jù),那樣會(huì)導(dǎo)致所有基于數(shù)據(jù)的系統(tǒng)都是大數(shù)據(jù)。可以采用如下描述定義大數(shù)據(jù)。

大數(shù)據(jù)是指為決策問(wèn)題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。其中,大數(shù)據(jù)集是指一個(gè)決策問(wèn)題所用到的所有可能的數(shù)據(jù),通常數(shù)據(jù)量巨大、來(lái)源多樣、類型多樣;大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)資源獲取、存儲(chǔ)管理、挖掘分析、可視展現(xiàn)等技術(shù);大數(shù)據(jù)應(yīng)用是指用大數(shù)據(jù)集和大數(shù)據(jù)技術(shù)來(lái)支持決策活動(dòng),是新的決策方法。

大數(shù)據(jù)能否為一個(gè)決策問(wèn)題提供服務(wù)的關(guān)鍵是:是否能在決策希望的時(shí)間內(nèi)有效完成所有的任務(wù)。由于數(shù)據(jù)增長(zhǎng)的速度遠(yuǎn)快于技術(shù)進(jìn)步的速度,因此就出現(xiàn)大數(shù)據(jù)問(wèn)題。

大數(shù)據(jù)問(wèn)題是指不能用當(dāng)前技術(shù)在決策希望的時(shí)間內(nèi)處理分析的數(shù)據(jù)資源開(kāi)發(fā)利用問(wèn)題。大數(shù)據(jù)問(wèn)題的關(guān)鍵技術(shù)挑戰(zhàn)在于:找到隱含在低價(jià)值密度數(shù)據(jù)資源中的價(jià)值;在希望的時(shí)間內(nèi)完成所有的任務(wù)。

根據(jù)這個(gè)定義,大數(shù)據(jù)謬誤和大數(shù)據(jù)之爭(zhēng)就可以避免。

首先,給定一個(gè)大數(shù)據(jù)集,當(dāng)沒(méi)有大數(shù)據(jù)技術(shù)能夠在希望的時(shí)間內(nèi)開(kāi)發(fā)其價(jià)值,那么該大數(shù)據(jù)是一個(gè)技術(shù)挑戰(zhàn),否則就是一個(gè)大數(shù)據(jù)應(yīng)用。需要注意的是,一個(gè)大數(shù)據(jù)應(yīng)用可能會(huì)轉(zhuǎn)化成大數(shù)據(jù)的技術(shù)挑戰(zhàn)。例如,無(wú)人駕駛汽車在道路上行駛時(shí),需要綜合分析汽車自身的工作數(shù)據(jù)(行駛速度、油量、引擎工作狀態(tài)等)、地圖及實(shí)時(shí)路況數(shù)據(jù)、道路管理數(shù)據(jù)(紅綠燈、限速等)等,快速做出駕駛決策。假設(shè)汽車10km剎車距離為45 m,那么當(dāng)汽車時(shí)速小于60 km/h時(shí),發(fā)現(xiàn)50 m外車道上有行人后,經(jīng)過(guò)2 s的數(shù)據(jù)分析得出需要?jiǎng)x車的結(jié)論是可以接受的,因此是一個(gè)成功的大數(shù)據(jù)應(yīng)用;但當(dāng)車速提高到100 km/h時(shí),數(shù)據(jù)分析的時(shí)間就得小于0.18 s,這就變成了技術(shù)挑戰(zhàn)。反之,一個(gè)大數(shù)據(jù)挑戰(zhàn)也同樣可以變成一個(gè)大數(shù)據(jù)應(yīng)用。上述例中,在高速公路上數(shù)據(jù)分析的時(shí)間小于0.18 s,這是一個(gè)大數(shù)據(jù)技術(shù)挑戰(zhàn),但是,如果市內(nèi)汽車限速為小于50 km/h,那么2 s的數(shù)據(jù)分析技術(shù)就可以使用,就會(huì)有成功的大數(shù)據(jù)應(yīng)用。

其次,有數(shù)據(jù)的、做數(shù)據(jù)的、用數(shù)據(jù)的人群談?wù)摰拇髷?shù)據(jù)分別是大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用,所以不同人群談?wù)摰拇髷?shù)據(jù)只是大數(shù)據(jù)的不同側(cè)面,分析清楚后就可以避免無(wú)謂的爭(zhēng)論。

2.4 ?信息化與大數(shù)據(jù)

信息化的本質(zhì)是生產(chǎn)數(shù)據(jù)的過(guò)程,數(shù)據(jù)被大量生產(chǎn)而形成了數(shù)據(jù)資源。數(shù)據(jù)資源的開(kāi)發(fā)利用逐漸成為人類的新需求,從早期的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的提出,到?jīng)Q策支持系統(tǒng)和商業(yè)智能的應(yīng)用,都是在進(jìn)行數(shù)據(jù)資源的開(kāi)發(fā)利用工作。直到大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)資源的開(kāi)發(fā)利用工作從量變發(fā)展到了質(zhì)變:數(shù)據(jù)開(kāi)發(fā)發(fā)展成為一個(gè)新的領(lǐng)域或行業(yè),信息技術(shù)發(fā)展出新的技術(shù)分支——大數(shù)據(jù)技術(shù),并迅速壯大,對(duì)數(shù)據(jù)界的探索發(fā)展成為一個(gè)新的科學(xué)——數(shù)據(jù)科學(xué)[8~11]。圖1展示了信息化和大數(shù)據(jù)的差異。


圖1 ? 信息化與大數(shù)據(jù)


3 ?大數(shù)據(jù)應(yīng)用

大數(shù)據(jù)應(yīng)用是決策應(yīng)用,即給定一個(gè)決策需求,然后獲取數(shù)據(jù),分析數(shù)據(jù),形成決策依據(jù)。很早期的關(guān)于沃爾瑪公司的“尿布和啤酒”的故事,決策需求是“哪些商品最容易被同時(shí)購(gòu)買”。其他如Google預(yù)測(cè)流感[12]、亞馬遜推薦圖書(shū)[13]、科學(xué)家發(fā)現(xiàn)“上帝粒子”[14]等,都是解決決策應(yīng)用的。

2008年《Nature》大數(shù)據(jù)專刊說(shuō)明:科學(xué)研究領(lǐng)域率先遇到大數(shù)據(jù)決策問(wèn)題[2]。決策可以發(fā)生在任何場(chǎng)合,大到國(guó)家宏觀決策、科學(xué)研究,小到選擇一家合適餐館、確定一條行車路線。由于決策的復(fù)雜性、困難性,大數(shù)據(jù)集通常是數(shù)據(jù)量巨大、來(lái)源多樣和類型多樣的數(shù)據(jù)集,這樣大數(shù)據(jù)應(yīng)用通常具有跨界數(shù)據(jù)、跨界應(yīng)用的特點(diǎn),打破原有行業(yè)領(lǐng)域界限,是決策方式的質(zhì)變。

3.1 ?決策依靠數(shù)據(jù)

從古到今,無(wú)論在戰(zhàn)場(chǎng)戰(zhàn)爭(zhēng)、商業(yè)競(jìng)爭(zhēng)、科學(xué)研究、日常生活中,取勝的重要因素是比別人知道更多、比別人更快地做出正確的決策。計(jì)算機(jī)出現(xiàn)之前的決策是采用人工方式:依靠手工收集和分析信息、依靠決策者的經(jīng)驗(yàn)和直覺(jué)做出決策。后來(lái)有了計(jì)算機(jī)決策支持系統(tǒng)(decision support system,DSS),再后來(lái)有商業(yè)智能(business intelligence,BI),這個(gè)時(shí)候就可以利用自身信息化積累的數(shù)據(jù)來(lái)開(kāi)展決策[15]。然而,自身的數(shù)據(jù)積累是一個(gè)漫長(zhǎng)、費(fèi)錢和困難的工作,只有大型企業(yè)和政府有能力這樣做。

隨著技術(shù)進(jìn)步和互聯(lián)網(wǎng)的普及應(yīng)用,不論是政府、組織、企業(yè)還是個(gè)人都越來(lái)越有能力獲得決策需要的各種數(shù)據(jù),這些數(shù)據(jù)來(lái)源多樣、類型多樣,甚至超過(guò)早期大型企業(yè)自身的積累,并且數(shù)據(jù)分析技術(shù)也取得了長(zhǎng)足進(jìn)步,人們可以通過(guò)分析這些數(shù)據(jù)得到?jīng)Q策依據(jù)。這樣,一種新型的決策方式產(chǎn)生了,這就是大數(shù)據(jù)決策。由于這是一個(gè)從量變到質(zhì)變的過(guò)程,不能簡(jiǎn)單地說(shuō)之前的BI不是大數(shù)據(jù),也不能簡(jiǎn)單地說(shuō)BI是大數(shù)據(jù)。

大數(shù)據(jù)形成決策依據(jù)的3種重要方式是:從精確分析到近似分析、從樣本分析到總體分析、從因果分析到關(guān)聯(lián)分析[16]。大數(shù)據(jù)決策主要體現(xiàn)在“通過(guò)分析不同來(lái)源的各種可能的數(shù)據(jù)來(lái)支持決策活動(dòng)”。由于大數(shù)據(jù)過(guò)于龐大和復(fù)雜,難以弄清數(shù)據(jù)之間的因果,所以大數(shù)據(jù)決策常常表現(xiàn)出“知其然就可以做出決策,而可以不知其所以然”[15]

那么如何來(lái)實(shí)施大數(shù)據(jù)決策呢?首先,需要獲取數(shù)據(jù),并進(jìn)行數(shù)據(jù)清潔和整合,形成大數(shù)據(jù)集;然后,使用大數(shù)據(jù)技術(shù)分析大數(shù)據(jù)集;最后,解釋和展示大數(shù)據(jù)開(kāi)發(fā)的結(jié)果,實(shí)現(xiàn)大數(shù)據(jù)決策。

3.2 ?“6用問(wèn)題”

給定一個(gè)大數(shù)據(jù)應(yīng)用需求,通常會(huì)遇到以下6個(gè)方面的問(wèn)題,即“6用問(wèn)題”。

(1)數(shù)據(jù)不夠用

獲取盡可能多的數(shù)據(jù)(決策素材)是一種直覺(jué)上的追求,即數(shù)據(jù)越多對(duì)決策越有利,或者至少比別人知道的更多,雖然實(shí)際情況可能不是數(shù)據(jù)越多越好,但這很難判斷。所以,大數(shù)據(jù)應(yīng)用的第一個(gè)問(wèn)題是“數(shù)據(jù)不夠用”。

(2)數(shù)據(jù)不可用

在數(shù)據(jù)夠用的情況下,還會(huì)遇到數(shù)據(jù)不可用問(wèn)題。數(shù)據(jù)不可用是指擁有數(shù)據(jù),但訪問(wèn)不到數(shù)據(jù)。例如,某個(gè)公共決策需要用到民政局、公安局、人力資源和社會(huì)保障局、稅務(wù)局的數(shù)據(jù),這些數(shù)據(jù)在各部門都有,但是數(shù)據(jù)不在一個(gè)系統(tǒng)里,是數(shù)據(jù)孤島,并不能用來(lái)做大數(shù)據(jù)決策;又如,一些交易系統(tǒng)只保留活躍用戶數(shù)據(jù),不活躍用戶的數(shù)據(jù)被備份到了備份系統(tǒng)中,訪問(wèn)備份系統(tǒng)數(shù)據(jù)是一件費(fèi)時(shí)、費(fèi)力的工作,甚至是不可能的工作。

(3)數(shù)據(jù)不好用

面對(duì)足夠可用的數(shù)據(jù)資源,下一個(gè)問(wèn)題是數(shù)據(jù)不好用問(wèn)題,即數(shù)據(jù)質(zhì)量有問(wèn)題。例如,信用判定應(yīng)用中,發(fā)現(xiàn)一些持卡人的登記信息缺失(如沒(méi)有職業(yè)數(shù)據(jù))或不正確(如收入數(shù)據(jù)不對(duì)),這些問(wèn)題直接影響了決策依據(jù)的獲得;又如,在戰(zhàn)場(chǎng)環(huán)境中,由于敵方的有意偽裝和干擾,獲得的數(shù)據(jù)質(zhì)量更差。

(4)數(shù)據(jù)不會(huì)用

數(shù)據(jù)不會(huì)用問(wèn)題是指不懂大數(shù)據(jù)分析技術(shù)、不會(huì)將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)分析問(wèn)題,而這正是大數(shù)據(jù)決策的核心。由于數(shù)據(jù)分析技術(shù)門檻很高,能夠使用大數(shù)據(jù)分析技術(shù)的人很少,而將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)分析問(wèn)題,更需要數(shù)據(jù)科學(xué)家創(chuàng)造性的勞動(dòng)。例如,在網(wǎng)站上做精準(zhǔn)廣告是一個(gè)業(yè)務(wù)問(wèn)題,在理解業(yè)務(wù)問(wèn)題的基礎(chǔ)上,用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)用戶的購(gòu)買喜好和需求進(jìn)行聚類分析,將廣告和用戶簇進(jìn)行對(duì)照,好的精準(zhǔn)廣告可以針對(duì)每個(gè)用戶來(lái)做。數(shù)據(jù)科學(xué)家極其短缺,使得數(shù)據(jù)不會(huì)用的問(wèn)題在實(shí)際中表現(xiàn)非常嚴(yán)重。

(5)數(shù)據(jù)不敢用

數(shù)據(jù)不敢用是指因?yàn)榕聯(lián)?zé)任而將本該用起來(lái)的數(shù)據(jù)束之高閣。很多政府?dāng)?shù)據(jù)資源之所以沒(méi)有很好地開(kāi)發(fā)利用,其中一個(gè)主要原因是數(shù)據(jù)擁有部門不愿意將數(shù)據(jù)用于非本部門業(yè)務(wù),怕喪失數(shù)據(jù)安全(如所有權(quán)和數(shù)據(jù)秘密)。

(6)數(shù)據(jù)不能用

數(shù)據(jù)不能用有兩個(gè)方面,一個(gè)是數(shù)據(jù)權(quán)屬問(wèn)題,即數(shù)據(jù)不屬于使用者;另一個(gè)是社會(huì)問(wèn)題,即隱私、倫理等問(wèn)題。首先,沒(méi)有使用權(quán)的數(shù)據(jù)不能用;其次,涉及隱私的數(shù)據(jù)需要脫敏處理,或者只做總體分析,不做個(gè)體分析,例如人口統(tǒng)計(jì)數(shù)據(jù)就只能做總體分析,不能做個(gè)體分析;第三,涉及倫理等社會(huì)問(wèn)題的數(shù)據(jù)也不能用,例如信用評(píng)分中的種族、民族、性別等數(shù)據(jù)就不能用。


4 ?大數(shù)據(jù)集

根據(jù)本文的定義,大數(shù)據(jù)集是指解決一個(gè)決策應(yīng)用問(wèn)題所用到的所有數(shù)據(jù),但不是全球的數(shù)據(jù)總和,也不是一個(gè)行業(yè)的數(shù)據(jù)總和,也不是一個(gè)組織的數(shù)據(jù)總和。但由于決策問(wèn)題的復(fù)雜性,一般來(lái)講,大數(shù)據(jù)集的數(shù)據(jù)量巨大、來(lái)源多樣、類型多樣。一個(gè)決策問(wèn)題用到的數(shù)據(jù)由具體的決策問(wèn)題決定,有些可能數(shù)據(jù)量大但不復(fù)雜,有些可能復(fù)雜但數(shù)據(jù)量不大。

4.1 ?從數(shù)據(jù)界獲取大數(shù)據(jù)集

數(shù)據(jù)作為一種資源已經(jīng)獲得廣泛認(rèn)識(shí)。早在2008年,筆者提出:數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要程度將越來(lái)越顯現(xiàn),在本世紀(jì)有可能超過(guò)石油、煤炭、礦產(chǎn),成為最重要的人類資源;2012年,Amazon前首席科學(xué)家Andreas Weigend表示:數(shù)據(jù)是原油,但石油需要加以提煉后才能使用,從事海量數(shù)據(jù)處理的公司就是煉油廠;2012年瑞士達(dá)沃斯召開(kāi)的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是討論的主題之一。這個(gè)論壇上發(fā)布的一份題為《大數(shù)據(jù),大影響》(big data, big impact)的報(bào)告[7]宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。

大數(shù)據(jù)是數(shù)據(jù)資源開(kāi)發(fā)利用的一種當(dāng)前表現(xiàn)形式,即數(shù)據(jù)資源已經(jīng)存在于網(wǎng)絡(luò)空間,大數(shù)據(jù)是對(duì)網(wǎng)絡(luò)空間數(shù)據(jù)資源的開(kāi)發(fā)利用。網(wǎng)絡(luò)空間的所有數(shù)據(jù)構(gòu)成數(shù)據(jù)界[8,9],因此,大數(shù)據(jù)可以看成用數(shù)據(jù)界的數(shù)據(jù)來(lái)解決決策問(wèn)題,大數(shù)據(jù)集應(yīng)該是從數(shù)據(jù)界獲取,而不是從自然界獲取,從自然界獲取數(shù)據(jù)是信息化。

各種大數(shù)據(jù)的定義都在說(shuō)大數(shù)據(jù)是數(shù)據(jù)集、資源、資產(chǎn),說(shuō)明數(shù)據(jù)已經(jīng)存在于網(wǎng)絡(luò)空間。前面提到“隨著技術(shù)進(jìn)步和互聯(lián)網(wǎng)的普及應(yīng)用,不論政府、組織、企業(yè)還是個(gè)人都越來(lái)越有能力獲得決策需要的各種數(shù)據(jù),這些數(shù)據(jù)來(lái)源多樣、類型多樣,甚至超過(guò)早期大型企業(yè)自身的積累”,也說(shuō)明數(shù)據(jù)來(lái)自數(shù)據(jù)界。

4.2 ?大數(shù)據(jù)集的要求

大數(shù)據(jù)使決策者從看到局部數(shù)據(jù)轉(zhuǎn)變?yōu)榭吹饺謹(jǐn)?shù)據(jù)、從樣本分析轉(zhuǎn)變?yōu)榭傮w分析。從局部數(shù)據(jù)到全局?jǐn)?shù)據(jù)要求數(shù)據(jù)集盡量全面,從各種來(lái)源獲取所需要的數(shù)據(jù);從樣本分析到總體分析要求數(shù)據(jù)集足夠大。因此,大數(shù)據(jù)集的要求應(yīng)該是數(shù)據(jù)量大或者復(fù)雜。

(1)大數(shù)據(jù)集應(yīng)該有來(lái)源多樣、類型多樣的數(shù)據(jù)

由于決策的復(fù)雜性、困難性,為滿足決策需求,大數(shù)據(jù)集通常由來(lái)源多樣和類型多樣的數(shù)據(jù)構(gòu)成,使用跨界數(shù)據(jù),開(kāi)展跨界應(yīng)用。數(shù)據(jù)來(lái)源多樣的一個(gè)要點(diǎn)是來(lái)源于決策者/決策機(jī)構(gòu)自身積累之外,這會(huì)給數(shù)據(jù)獲取、數(shù)據(jù)分析技術(shù)帶來(lái)挑戰(zhàn),來(lái)源多樣通常也意味著類型多樣。例如,環(huán)境生態(tài)研究是進(jìn)化論、基因組學(xué)、地理學(xué)、海洋學(xué)、氣候?qū)W、流行病學(xué)和經(jīng)濟(jì)學(xué)的綜合研究,其研究工作需要有來(lái)源多樣的數(shù)據(jù)[17]。2010年位于墨西哥灣的“深水地平線(deepwater horizon oil)”鉆井平臺(tái)爆炸溢油長(zhǎng)達(dá)80 mile(約128 km)。對(duì)溢油帶來(lái)的生態(tài)影響(如對(duì)海岸、海平面、海底的影響,對(duì)魚(yú)、蝦、昆蟲(chóng)、植物、鳥(niǎo)類、鯨魚(yú)、海龜?shù)挠绊懙?#xff09;的研究是一個(gè)重要課題,需要深海浮游生物(planktonic)和遠(yuǎn)洋生物(pelagic organisms)、化學(xué)(油和分散劑)、毒理學(xué)(toxicology)、海洋學(xué)(oceanography)和天文學(xué)等多源數(shù)據(jù)支持。災(zāi)難發(fā)生后,美國(guó)國(guó)家海洋和大氣管理局派出科學(xué)考察船,對(duì)污染海域進(jìn)行取樣;美國(guó)宇航局利用衛(wèi)星上的中解析度成像光譜儀對(duì)海上石油污染進(jìn)行監(jiān)測(cè);科學(xué)家們還在陸上收集相關(guān)數(shù)據(jù);英國(guó)石油公司也展開(kāi)了對(duì)該地區(qū)空氣、水質(zhì)等方面的測(cè)試。

(2)大數(shù)據(jù)集應(yīng)該有PB級(jí)別的數(shù)據(jù)規(guī)模

就目前技術(shù)水平而言,引發(fā)技術(shù)挑戰(zhàn)的大數(shù)據(jù)集的規(guī)模應(yīng)該有PB級(jí)別。PB級(jí)別的數(shù)據(jù)規(guī)模是傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)軟件所不能有效存放的,因此,PB級(jí)別數(shù)據(jù)規(guī)模需要新型的數(shù)據(jù)管理技術(shù),于是出現(xiàn)分布式文件系統(tǒng)(HDFS)。這只是初步解決了數(shù)據(jù)存儲(chǔ)問(wèn)題,數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)等方面還有很多技術(shù)問(wèn)題。

2008年《Nature》大數(shù)據(jù)專刊的封面中,除了醒目的“big data”外,還有一句話“science in thePetabyte era(科學(xué)處在PB時(shí)代)”,這個(gè)封面有兩層意思:第一層意思是科學(xué)研究已經(jīng)到了大數(shù)據(jù)時(shí)代;第二層意思是PB級(jí)數(shù)據(jù)是大數(shù)據(jù)規(guī)模的一個(gè)基本標(biāo)志,數(shù)據(jù)量足夠大,使用時(shí)有技術(shù)難度。

在實(shí)際中,很多成功的大數(shù)據(jù)應(yīng)用的數(shù)據(jù)集規(guī)模都沒(méi)有超過(guò)PB級(jí)別,但是,由于決策者所處的計(jì)算環(huán)境、資金支持所限,很多小于PB級(jí)別的數(shù)據(jù)集已經(jīng)構(gòu)成了技術(shù)挑戰(zhàn)。《Science》雜志于2011年對(duì)許多數(shù)據(jù)相關(guān)研究人員(他們都是國(guó)際、交叉領(lǐng)域的科學(xué)研究團(tuán)隊(duì)的負(fù)責(zé)人)進(jìn)行了調(diào)查,收到了1 700份回應(yīng),其中,20%的人回應(yīng)一般使用和分析的數(shù)據(jù)集超過(guò)了100 GB,7%的科學(xué)家使用和分析1 TB以上的數(shù)據(jù)。一半的科學(xué)家認(rèn)為他們一般僅使用存儲(chǔ)于自己實(shí)驗(yàn)室的數(shù)據(jù),但這不是一個(gè)理想的解決方案。國(guó)際千人基因組計(jì)劃(1 000?genomes project)自2008年啟動(dòng)以來(lái),短短4年間已獲得1 092人的基因組數(shù)據(jù)[18],產(chǎn)生的數(shù)據(jù)量已達(dá)到50 TB。

但在可以預(yù)見(jiàn)的未來(lái),PB級(jí)別的數(shù)據(jù)量是科學(xué)研究領(lǐng)域進(jìn)行一項(xiàng)科學(xué)研究的常態(tài),也是很多領(lǐng)域的決策應(yīng)用的常態(tài)。例如,2013年3月14日,通過(guò)對(duì)大約200?PB的數(shù)據(jù)用150個(gè)計(jì)算中心進(jìn)行長(zhǎng)達(dá)3年的計(jì)算分析,歐洲核子研究組織宣布確認(rèn)希格斯玻色子[14]。又如,美國(guó)斯坦福線性加速器中心(SLAC)國(guó)家加速器實(shí)驗(yàn)室(National Accelerator Laboratory)計(jì)劃建造的大型綜合巡天望遠(yuǎn)鏡(large synoptic survey telescope,LSST)將每晚獲取數(shù)據(jù)5~10 TB(而目前的SDSS僅有每晚200 GB),計(jì)劃獲取60 PB影像數(shù)據(jù)[19]


5 ?大數(shù)據(jù)技術(shù)

面對(duì)“6用問(wèn)題”,大數(shù)據(jù)技術(shù)面臨很多挑戰(zhàn)。

針對(duì)數(shù)據(jù)不夠用問(wèn)題,需要研究、使用數(shù)據(jù)獲取技術(shù):如何獲取足夠的數(shù)據(jù),是大數(shù)據(jù)的第一個(gè)技術(shù)挑戰(zhàn)。大數(shù)據(jù)需要從數(shù)據(jù)界獲取跨領(lǐng)域行業(yè)、多類型的數(shù)據(jù),而不是從自然界獲取數(shù)據(jù),因此網(wǎng)絡(luò)空間的哪些地方有所需的數(shù)據(jù)、如何拿到數(shù)據(jù)等是主要的技術(shù)挑戰(zhàn),搜索、爬取、下載等是常見(jiàn)的數(shù)據(jù)獲取技術(shù)。

針對(duì)數(shù)據(jù)不可用問(wèn)題,需要研究、使用數(shù)據(jù)儲(chǔ)備和管理技術(shù):數(shù)據(jù)不可用問(wèn)題對(duì)技術(shù)的挑戰(zhàn)是巨量數(shù)據(jù)存儲(chǔ)與管理、跨地域數(shù)據(jù)訪問(wèn)與計(jì)算。分布式文件系統(tǒng)、Hadoop是當(dāng)前被較多采用的技術(shù)。

針對(duì)數(shù)據(jù)不好用問(wèn)題,需要研究、使用數(shù)據(jù)質(zhì)量技術(shù):數(shù)據(jù)不好用問(wèn)題對(duì)技術(shù)的挑戰(zhàn)是數(shù)據(jù)質(zhì)量判定、數(shù)據(jù)質(zhì)量提升、數(shù)據(jù)質(zhì)量修復(fù)。數(shù)據(jù)清潔是當(dāng)前采用的數(shù)據(jù)質(zhì)量技術(shù),但效果有限。

針對(duì)數(shù)據(jù)不會(huì)用問(wèn)題,需要研究、使用數(shù)據(jù)分析技術(shù):數(shù)據(jù)不會(huì)用問(wèn)題需要既能理解業(yè)務(wù)需求又懂?dāng)?shù)據(jù)分析技術(shù)的數(shù)據(jù)科學(xué)家,其技術(shù)挑戰(zhàn)是數(shù)據(jù)挖掘算法的設(shè)計(jì)和實(shí)現(xiàn)、在可接受的時(shí)間完成計(jì)算。面對(duì)PB以上級(jí)別的復(fù)雜數(shù)據(jù),還缺少有效的數(shù)據(jù)挖掘算法和軟件工具。

針對(duì)數(shù)據(jù)不敢用問(wèn)題,需要研究、使用數(shù)據(jù)開(kāi)放共享技術(shù):如果技術(shù)做得好,這個(gè)問(wèn)題是有希望解決的。例如,在傳統(tǒng)數(shù)據(jù)管理系統(tǒng)軟件中,數(shù)據(jù)管理員管理整個(gè)數(shù)據(jù)庫(kù),但是他并不具備訪問(wèn)具體數(shù)據(jù)的權(quán)限,因此他并不能知曉數(shù)據(jù)秘密。之前,大部分?jǐn)?shù)據(jù)都不開(kāi)放,所以相應(yīng)的技術(shù)研究有很多空白。數(shù)據(jù)不敢用的技術(shù)挑戰(zhàn)是在保護(hù)數(shù)據(jù)安全(所有權(quán)和數(shù)據(jù)秘密)的前提下實(shí)現(xiàn)數(shù)據(jù)開(kāi)放共享。

針對(duì)數(shù)據(jù)不能用問(wèn)題,需要研究使用數(shù)據(jù)權(quán)屬及保護(hù)技術(shù):之前,大部分?jǐn)?shù)據(jù)都是自己生產(chǎn),自己保管,問(wèn)題不嚴(yán)重,所以相應(yīng)的技術(shù)研究有很多空白。數(shù)據(jù)不能用的范圍廣泛,主要的技術(shù)挑戰(zhàn)包括數(shù)據(jù)權(quán)屬的認(rèn)證和判別技術(shù)、隱私保護(hù)技術(shù)等。

長(zhǎng)期以來(lái),信息技術(shù)主要是用于信息化的,即生產(chǎn)數(shù)據(jù),而大數(shù)據(jù)是用于開(kāi)發(fā)數(shù)據(jù)的,如圖1所示。面對(duì)大數(shù)據(jù)決策的“6用問(wèn)題”,之前的技術(shù)在數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)質(zhì)量保障、數(shù)據(jù)安全與隱私保護(hù)等方面遇到了一系列新的技術(shù)挑戰(zhàn),需要開(kāi)發(fā)大數(shù)據(jù)技術(shù)來(lái)應(yīng)對(duì)這些挑戰(zhàn),而以數(shù)據(jù)分析技術(shù)為核心的數(shù)據(jù)開(kāi)發(fā)技術(shù)正逐步形成獨(dú)立的技術(shù)分支。表1展示了生產(chǎn)數(shù)據(jù)和開(kāi)發(fā)數(shù)據(jù)的技術(shù)差異。

表1 ? 生產(chǎn)數(shù)據(jù)與開(kāi)發(fā)數(shù)據(jù)的技術(shù)差異

6用問(wèn)題

數(shù)據(jù)技術(shù)

信息化(生產(chǎn)數(shù)據(jù)技術(shù))

大數(shù)據(jù)(開(kāi)發(fā)數(shù)據(jù)技術(shù))

數(shù)據(jù)不夠用

數(shù)據(jù)獲取

從自然界獲取數(shù)據(jù):通過(guò)數(shù)字化設(shè)備和計(jì)算機(jī)I/O設(shè)備獲得數(shù)據(jù)

從數(shù)據(jù)界獲取數(shù)據(jù):購(gòu)買數(shù)據(jù)或從各數(shù)據(jù)源通過(guò)下載、爬蟲(chóng)、分發(fā)等技術(shù)手段獲得數(shù)據(jù)

數(shù)據(jù)不可用

數(shù)據(jù)存儲(chǔ)管理

開(kāi)發(fā)各種存儲(chǔ)技術(shù),包括存儲(chǔ)設(shè)備、DBMS等各種存儲(chǔ)技術(shù)

數(shù)據(jù)已經(jīng)存在網(wǎng)絡(luò)空間的某個(gè)地方,主要技術(shù)包括數(shù)據(jù)搜索和訪問(wèn)技術(shù)、異地計(jì)算技術(shù)、適合數(shù)據(jù)分析的存儲(chǔ)技術(shù)

數(shù)據(jù)不好用

數(shù)據(jù)質(zhì)量保障

內(nèi)部數(shù)據(jù):數(shù)據(jù)質(zhì)量技術(shù)

有大量外部數(shù)據(jù),數(shù)據(jù)質(zhì)量問(wèn)題較嚴(yán)重,需要新的數(shù)據(jù)質(zhì)量技術(shù)

數(shù)據(jù)不會(huì)用

數(shù)據(jù)挖掘分析

數(shù)據(jù)挖掘分析技術(shù)被分離出來(lái),形成數(shù)據(jù)開(kāi)發(fā)技術(shù)的核心

數(shù)據(jù)融合、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、深度學(xué)習(xí)等是數(shù)據(jù)開(kāi)發(fā)的核心技術(shù),還有數(shù)據(jù)勘探、可視化等

數(shù)據(jù)不敢用

數(shù)據(jù)開(kāi)放共享

數(shù)據(jù)開(kāi)放不多,技術(shù)有限

新技術(shù),如保護(hù)數(shù)據(jù)安全(所有權(quán)和數(shù)據(jù)秘密)的前提下實(shí)現(xiàn)數(shù)據(jù)開(kāi)放共享技術(shù)

數(shù)據(jù)不能用

數(shù)據(jù)安全隱私

內(nèi)部數(shù)據(jù):技術(shù)有限

有大量外部數(shù)據(jù),數(shù)據(jù)權(quán)屬的認(rèn)證和判別技術(shù)、隱私保護(hù)技術(shù)等


6 ?結(jié)束語(yǔ)

長(zhǎng)期的信息化實(shí)踐,從數(shù)據(jù)生產(chǎn)、數(shù)據(jù)積累、數(shù)據(jù)資源形成到數(shù)據(jù)開(kāi)發(fā),從量變到質(zhì)變,數(shù)據(jù)開(kāi)發(fā)發(fā)展成為一個(gè)新的領(lǐng)域或行業(yè),信息領(lǐng)域發(fā)展出新的分支-——大數(shù)據(jù)。大數(shù)據(jù)是指為決策問(wèn)題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。大數(shù)據(jù)問(wèn)題是指不能用當(dāng)前技術(shù)在決策希望的時(shí)間內(nèi)處理分析的數(shù)據(jù)資源開(kāi)發(fā)利用問(wèn)題。大數(shù)據(jù)引發(fā)了決策方式的質(zhì)變,對(duì)政治界、商業(yè)界、學(xué)術(shù)界都產(chǎn)生重大影響。

數(shù)據(jù)的增長(zhǎng)給技術(shù)帶來(lái)了挑戰(zhàn),所謂“當(dāng)前技術(shù)所不能”;隨著技術(shù)的進(jìn)步,成功的大數(shù)據(jù)應(yīng)用不斷出現(xiàn),大數(shù)據(jù)正是在“數(shù)據(jù)增長(zhǎng)”和“技術(shù)進(jìn)步”之間交替前行,成就了當(dāng)今的大數(shù)據(jù)熱潮。從理論上講,大數(shù)據(jù)的技術(shù)挑戰(zhàn)在摩爾定律的作用下可以自行解決,但數(shù)據(jù)增長(zhǎng)的速度遠(yuǎn)快于技術(shù)進(jìn)步的數(shù)據(jù),所以今天出現(xiàn)了大數(shù)據(jù)問(wèn)題。除非出現(xiàn)革命性技術(shù),否則大數(shù)據(jù)問(wèn)題不可能被解決。這就需要關(guān)注數(shù)據(jù)本身的變化發(fā)展規(guī)律,發(fā)展數(shù)據(jù)科學(xué)。

對(duì)大數(shù)據(jù)和數(shù)據(jù)科學(xué)的發(fā)展展望如下。

(1)大數(shù)據(jù)儲(chǔ)備技術(shù)需求迫切

數(shù)據(jù)作為資源,建立數(shù)據(jù)儲(chǔ)備將是重大需求,因此,數(shù)據(jù)獲取、數(shù)據(jù)儲(chǔ)備設(shè)計(jì)、數(shù)據(jù)儲(chǔ)備管理、數(shù)據(jù)搬運(yùn)、異地?cái)?shù)據(jù)計(jì)算、數(shù)據(jù)主權(quán)保護(hù)等數(shù)據(jù)儲(chǔ)備技術(shù)有望快速發(fā)展。

(2)大數(shù)據(jù)開(kāi)發(fā)技術(shù)快速發(fā)展

數(shù)據(jù)生產(chǎn)技術(shù)相對(duì)成熟,并形成穩(wěn)步發(fā)展。數(shù)據(jù)開(kāi)發(fā)技術(shù)即將進(jìn)入快速發(fā)展期,包括數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)軟件工程、決策應(yīng)用技術(shù)等。

(3)數(shù)據(jù)科學(xué)穩(wěn)步前行

從科學(xué)研究、學(xué)科發(fā)展和人才培養(yǎng)角度來(lái)看,數(shù)據(jù)科學(xué)將會(huì)快速發(fā)展。近3年,在美國(guó)有包括哥倫比亞大學(xué)、紐約大學(xué)、加州大學(xué)、卡耐基梅隆大學(xué)等許多高校建立數(shù)據(jù)科學(xué)研究機(jī)構(gòu)或開(kāi)設(shè)數(shù)據(jù)科學(xué)專業(yè)研究生培養(yǎng)項(xiàng)目。


參考文獻(xiàn):

[1] ?Cox M, Ellsworth D. Application-controlleddemand paging for out-of-core visualizetion. Proceedingsof the 8th Conference on Visualization, Phoenix, AZ, USA, 1997: 235~244

[2] ? U. S. Government. Big data research anddevelopment initiative. http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf, 2012

[3] ? Wikipedia. Big data.http://en.wikipedia.org/wiki/Big_data, 2015

[4] ? Mark B. Gartner says solving ‘big data’challenge involves more than just managing volumes of data.http://www.gartner.com/newsroom/id/1731916, 2011

[5] ? Villanova University. What is big data.http://www.villanovau.com/resources/bi/ what-is-big-data/, 2015

[6] ??數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理及發(fā)展前景.?第462次香山科學(xué)會(huì)議,?北京,?中國(guó), 2013

The scientificprinciple and prospect of data science and big data. Proceedings of the 462ndXiangshan Science Conference, Beijing, China, 2013

[7] ? World Economic Forum. Big data, big impact:new possibilities for international development.http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf, 2012

[8] ? Zhu Y Y, Zhong N, Xiong Y. Data explosion,data nature and dataology. Proceedings of International Conference on BrainInformatics, Beijing, China, 2009: 147~158

[9] ??朱揚(yáng)勇,?熊赟.?數(shù)據(jù)學(xué).?上海:復(fù)旦大學(xué)出版社,2009

Zhu Y Y, Xiong Y. Dataology and DataScience. Shanghai: Fudan University Press, 2009

[10] CODATA中國(guó)全國(guó)委員會(huì).?大數(shù)據(jù)時(shí)代的科學(xué)活動(dòng).?北京:?科學(xué)出版社,2014

CODATA China National Committee.Scientific Discovery in Big Data Era. Beijing: Science Press, 2014

[11] Zhu Y Y, Xiong Y. Defining data science.http://arxiv.org/ftp/arxiv/papers/1501/ 1501.05039.pdf, 2015

[12] Google. Google flu trends.http://www.google.org/flutrends, 2008

[13] Greg L, Brent S, Jeremy Y. Amazon.comrecommendations: item-to-item collaborative filtering. ?IEEE Internet Computing, 2003, 7(1): 76~80

[14] Adrian C. Higgs boson positively identified.http://news.sciencemag.org/sciencenow/2013/03/higgs-boson-positively-identifie.html?ref=hp, 2013

[15]?吳俊偉,?朱揚(yáng)勇.?匯計(jì)劃在行動(dòng).?上海:上海科學(xué)技術(shù)出版社, 2015

Wu J W, Zhu Y Y.Shanghai Big Data in Action. Shanghai: Shanghai Scientific and TechnicalPublishers, 2015

[16] Schonberger V M, Cukier K. Big Data: ARevolution That Will Transform How We Live Work and Think. London: HodderExport, 2013

[17] Reichman O J, Jones M B, Schildhauer M P.Challenges and opportunities of open data in ecology. Science, 2011, 331(6018):703~705

[18] McVean G A, Abecasis D M. An integrated map ofgenetic variation from 1092 human genomes. Nature, 2012, 491(7422): 56~65

[19] Feigelson E D, Babu G J. Big data inastronomy. http://astrostatistics.psu.edu/ 2012Significance.pdf, 2012

朱揚(yáng)勇,男,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、學(xué)術(shù)委員會(huì)主任,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護(hù)和利用,2009年發(fā)表了數(shù)據(jù)科學(xué)論文“Data explosion, data nature and dataology”,并出版專著《數(shù)據(jù)學(xué)》,對(duì)數(shù)據(jù)科學(xué)進(jìn)行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。第462次香山科學(xué)會(huì)議“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的理論問(wèn)題探索”的執(zhí)行主席,《大數(shù)據(jù)技術(shù)與應(yīng)用叢書(shū)》主編。目前研究興趣為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。

熊赟,女,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院副教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項(xiàng)目負(fù)責(zé)人主持國(guó)家自然科學(xué)基金、上海市科委發(fā)展基金以及企業(yè)合作項(xiàng)目。相關(guān)研究成果在本領(lǐng)域國(guó)際權(quán)威期刊或會(huì)議發(fā)表論文30余篇,出版專著2本。目前研究興趣為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。

總結(jié)

以上是生活随笔為你收集整理的2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。