第一章-大数据概述
第一章-大數(shù)據(jù)概述
文章目錄
- 第一章-大數(shù)據(jù)概述
- 大數(shù)據(jù)時(shí)代
- 大數(shù)據(jù)概念、影響、應(yīng)用
- 大數(shù)據(jù)關(guān)鍵技術(shù)
- 大數(shù)據(jù)計(jì)算模式
- 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系
本系列博客的材料均來(lái)自廈門大學(xué)林子雨老師的教材和MOOC資料。
大數(shù)據(jù)時(shí)代
根據(jù)IBM前首席執(zhí)行官 Louis Gerstner 的觀點(diǎn), IT領(lǐng)域每隔十五年就會(huì)迎來(lái)一次重大變革。
| 第一次浪潮 | 1980年前后 | 個(gè)人計(jì)算機(jī) | 信息處理 | Intel、IBM、蘋果、微軟、聯(lián)想等 |
| 第二次浪潮 | 1995年前后 | 互聯(lián)網(wǎng) | 信息傳輸 | 雅虎、谷歌、阿里巴巴、百度、騰訊等 |
| 第三次浪潮 | 2010年前后 | 物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù) | 信息爆炸 | 將涌現(xiàn)出一批新的市 場(chǎng)標(biāo)桿企業(yè) |
信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐:
- 存儲(chǔ)設(shè)備容量不斷增加
- CPU處理能力大幅提升
- 網(wǎng)絡(luò)帶寬不斷增加
數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來(lái)臨:
- 運(yùn)營(yíng)式系統(tǒng)階段
- 數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的,只有當(dāng)實(shí)際的企業(yè)業(yè)務(wù)發(fā)生時(shí),才會(huì)產(chǎn)生新的記錄并存入數(shù)據(jù)庫(kù)
- 用戶原創(chuàng)內(nèi)容階段
- Web2.0和智能手機(jī)的出現(xiàn),強(qiáng)調(diào)自服務(wù),大量上網(wǎng)用戶本身就是內(nèi)容的生成者
- 感知式系統(tǒng)階段
- 物聯(lián)網(wǎng)的自動(dòng)數(shù)據(jù)產(chǎn)生方式,將在短時(shí)間內(nèi)生成更密集、更大量的數(shù)據(jù)
大數(shù)據(jù)的發(fā)展歷程:
| 萌芽期 | 1990-2000 | 數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟,“數(shù)據(jù)倉(cāng)庫(kù)”等一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用 |
| 成熟期 | 2000-2010 | Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù) |
| 大規(guī)模應(yīng)用期 | 2010年以后 | 大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策, 信息社會(huì)智能化程度大幅提高 |
大數(shù)據(jù)概念、影響、應(yīng)用
大數(shù)據(jù)的4V特征:
- 數(shù)據(jù)量大(Volume)
- 大數(shù)據(jù)摩爾定律:數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍
- 數(shù)據(jù)類型繁多(Variety)
- 大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的。10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中;90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)
- 處理速度快(Velocity)
- 從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少
- 價(jià)值密度低 (Value)
- 大數(shù)據(jù)雖然擁有海量的信息,但是真正可用的數(shù)據(jù)可能只有很小一部分
大數(shù)據(jù)的四種范式:
- 實(shí)驗(yàn)科學(xué):采用實(shí)驗(yàn)的方式來(lái)解決一些科學(xué)問(wèn)題
- 理論科學(xué):采用數(shù)學(xué)、幾何、物理等理論,構(gòu)建問(wèn)題模型和解決方案
- 計(jì)算科學(xué):借助于計(jì)算機(jī)的高速運(yùn)算能力來(lái)解決各種問(wèn)題
- 數(shù)據(jù)密集型科學(xué):一切將以數(shù)據(jù)為中心,從數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題、解決問(wèn)題,真正體現(xiàn)數(shù)據(jù)的價(jià)值
大數(shù)據(jù)對(duì)思維方式的影響:
- 全樣而非抽樣
- 有了大數(shù)據(jù)技術(shù)的支持,科學(xué)分析完全可以直接針對(duì)全集數(shù)據(jù)而不是抽樣數(shù)據(jù)
- 效率而非精確
- 大數(shù)據(jù)時(shí)代采用全樣分析而不是抽樣分析,不存在誤差被放大的問(wèn)題,效率成為關(guān)注的核心
- 相關(guān)而非因果
- 大數(shù)據(jù)時(shí)代,因果關(guān)系不再那么重要,轉(zhuǎn)而追求“相關(guān)性”,告訴你關(guān)聯(lián)什么而不告訴你為什么
大數(shù)據(jù)無(wú)處不在,包括金融、汽車、零售、餐飲、 電信、能源、政務(wù)、醫(yī)療、體育、娛樂(lè)等在內(nèi)的 社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應(yīng)用有力促進(jìn)了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)
在就業(yè)市場(chǎng)方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)。隨著數(shù)據(jù)科學(xué)家給企業(yè)帶來(lái)的商業(yè)價(jià)值的日益體現(xiàn),市場(chǎng)對(duì)數(shù)據(jù)科學(xué)家的需求會(huì)越發(fā)旺盛。
在人才培養(yǎng)方面,大數(shù)據(jù)的興起,將在很大程度上改變中國(guó)高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制。目前,國(guó)內(nèi)的數(shù)據(jù)科學(xué)家不是高校培養(yǎng)的,而主要是在企業(yè)實(shí)際應(yīng)用環(huán)境中通過(guò)邊工作邊學(xué)習(xí)的方式成長(zhǎng)起來(lái)的。互聯(lián)網(wǎng)領(lǐng)域集中了大部分的數(shù)據(jù)科學(xué)家人才。
大數(shù)據(jù)關(guān)鍵技術(shù)
大數(shù)據(jù)技術(shù)層次:
| 數(shù)據(jù)采集 | 利用 ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)?;蛘甙褜?shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析 |
| 數(shù)據(jù)存儲(chǔ)與管理 | 利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理 |
| 數(shù)據(jù)處理與分析 | 利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析;對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù) |
| 數(shù)據(jù)隱私與安全 | 在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全 |
大數(shù)據(jù)兩大核心技術(shù):
- 分布式存儲(chǔ)(解決海量數(shù)據(jù)的存儲(chǔ)問(wèn)題)
- 分布式處理(解決海量數(shù)據(jù)的處理問(wèn)題)
大數(shù)據(jù)計(jì)算模式
不同的計(jì)算模式需要使用不同的產(chǎn)品,企業(yè)中不同的應(yīng)用場(chǎng)景屬于不同的計(jì)算模式,需要使用不同的大數(shù)據(jù)技術(shù)。
典型的計(jì)算模式:
| 批處理計(jì)算 | 針對(duì)大規(guī)模數(shù)據(jù)的批量處理 | MapReduce、Spark等 |
| 流計(jì)算 | 針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算 | Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流數(shù)據(jù)處理平臺(tái)等 |
| 圖計(jì)算 | 針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 |
| 查詢分析計(jì)算 | 大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析 | Dremel、Hive、Cassandra、Impala等 |
大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系
云計(jì)算是通過(guò)網(wǎng)絡(luò)以服務(wù)的方式為用戶提供可伸縮的、廉價(jià)的分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時(shí)隨地獲得所需的各種IT資源。
云計(jì)算的典型特征:
- 虛擬化
- 多租戶
云計(jì)算的服務(wù)模式和類型:
數(shù)據(jù)中心是云計(jì)算的重要載體,為云計(jì)算提供計(jì)算、存儲(chǔ)、帶寬等各種硬件資源,為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境。數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施,包括大量的刀片服務(wù)器、寬帶網(wǎng)絡(luò)連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置等 。
物聯(lián)網(wǎng)(IoT: Internet of Things):物物相連的互聯(lián)網(wǎng),它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過(guò)新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制。
從技術(shù)架構(gòu)上來(lái)看,物聯(lián)網(wǎng)可分為四層
| 感知層 | 如果把物聯(lián)網(wǎng)比喻為一個(gè)人體,感知層就相當(dāng)于人的神經(jīng)末梢,采集來(lái)自物理世界的各種信息。感知層包含了大量的傳感器,如溫度傳感器、重力傳感器、攝像頭、GPS設(shè)備等 |
| 網(wǎng)絡(luò)層 | 相當(dāng)于人體的神經(jīng)中樞,起到信息傳輸?shù)淖饔?。網(wǎng)絡(luò)層包含各種類型的網(wǎng)絡(luò),如互聯(lián)網(wǎng)、衛(wèi)星通信網(wǎng)絡(luò)等 |
| 處理層 | 相當(dāng)于人體的大腦,起到存儲(chǔ)和處理的作用。處理層包括數(shù)據(jù)存儲(chǔ)、管理和分析平臺(tái) |
| 應(yīng)用層 | 直接面向用戶,滿足各種應(yīng)用需求。例如智慧交通、智慧農(nóng)業(yè)、智慧醫(yī)療等 |
物聯(lián)網(wǎng)中的關(guān)鍵技術(shù):
- 識(shí)別和感知技術(shù)(二維碼、RFID、傳感器等)
- 網(wǎng)絡(luò)與通信技術(shù)
- 數(shù)據(jù)挖掘與融合技術(shù)
物聯(lián)網(wǎng)應(yīng)用:
云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢(shì),三者相輔相成,有著密不可分的關(guān)聯(lián)。
總結(jié)
- 上一篇: 简单的HDFS操作
- 下一篇: 简单的MapReduce实践