日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

第一章-大数据概述

發(fā)布時(shí)間:2025/3/21 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第一章-大数据概述 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

第一章-大數(shù)據(jù)概述

文章目錄

  • 第一章-大數(shù)據(jù)概述
    • 大數(shù)據(jù)時(shí)代
    • 大數(shù)據(jù)概念、影響、應(yīng)用
    • 大數(shù)據(jù)關(guān)鍵技術(shù)
    • 大數(shù)據(jù)計(jì)算模式
    • 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系

本系列博客的材料均來(lái)自廈門大學(xué)林子雨老師的教材和MOOC資料。

大數(shù)據(jù)時(shí)代

根據(jù)IBM前首席執(zhí)行官 Louis Gerstner 的觀點(diǎn), IT領(lǐng)域每隔十五年就會(huì)迎來(lái)一次重大變革。

信息化浪潮發(fā)生時(shí)間標(biāo)志解決問(wèn)題代表企業(yè)
第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、IBM、蘋果、微軟、聯(lián)想等
第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等
第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市 場(chǎng)標(biāo)桿企業(yè)

信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐:

  • 存儲(chǔ)設(shè)備容量不斷增加
  • CPU處理能力大幅提升
  • 網(wǎng)絡(luò)帶寬不斷增加

數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來(lái)臨:

  • 運(yùn)營(yíng)式系統(tǒng)階段
    • 數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的,只有當(dāng)實(shí)際的企業(yè)業(yè)務(wù)發(fā)生時(shí),才會(huì)產(chǎn)生新的記錄并存入數(shù)據(jù)庫(kù)
  • 用戶原創(chuàng)內(nèi)容階段
    • Web2.0和智能手機(jī)的出現(xiàn),強(qiáng)調(diào)自服務(wù),大量上網(wǎng)用戶本身就是內(nèi)容的生成者
  • 感知式系統(tǒng)階段
    • 物聯(lián)網(wǎng)的自動(dòng)數(shù)據(jù)產(chǎn)生方式,將在短時(shí)間內(nèi)生成更密集、更大量的數(shù)據(jù)

大數(shù)據(jù)的發(fā)展歷程:

階段時(shí)間內(nèi)容
萌芽期1990-2000數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟,“數(shù)據(jù)倉(cāng)庫(kù)”等一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用
成熟期2000-2010Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù)
大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策, 信息社會(huì)智能化程度大幅提高

大數(shù)據(jù)概念、影響、應(yīng)用

大數(shù)據(jù)的4V特征:

  • 數(shù)據(jù)量大(Volume)
    • 大數(shù)據(jù)摩爾定律:數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍
  • 數(shù)據(jù)類型繁多(Variety)
    • 大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的。10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中;90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)
  • 處理速度快(Velocity)
    • 從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少
  • 價(jià)值密度低 (Value)
    • 大數(shù)據(jù)雖然擁有海量的信息,但是真正可用的數(shù)據(jù)可能只有很小一部分

大數(shù)據(jù)的四種范式:

  • 實(shí)驗(yàn)科學(xué):采用實(shí)驗(yàn)的方式來(lái)解決一些科學(xué)問(wèn)題
  • 理論科學(xué):采用數(shù)學(xué)、幾何、物理等理論,構(gòu)建問(wèn)題模型和解決方案
  • 計(jì)算科學(xué):借助于計(jì)算機(jī)的高速運(yùn)算能力來(lái)解決各種問(wèn)題
  • 數(shù)據(jù)密集型科學(xué):一切將以數(shù)據(jù)為中心,從數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題、解決問(wèn)題,真正體現(xiàn)數(shù)據(jù)的價(jià)值

大數(shù)據(jù)對(duì)思維方式的影響:

  • 全樣而非抽樣
    • 有了大數(shù)據(jù)技術(shù)的支持,科學(xué)分析完全可以直接針對(duì)全集數(shù)據(jù)而不是抽樣數(shù)據(jù)
  • 效率而非精確
    • 大數(shù)據(jù)時(shí)代采用全樣分析而不是抽樣分析,不存在誤差被放大的問(wèn)題,效率成為關(guān)注的核心
  • 相關(guān)而非因果
    • 大數(shù)據(jù)時(shí)代,因果關(guān)系不再那么重要,轉(zhuǎn)而追求“相關(guān)性”,告訴你關(guān)聯(lián)什么而不告訴你為什么

大數(shù)據(jù)無(wú)處不在,包括金融、汽車、零售、餐飲、 電信、能源、政務(wù)、醫(yī)療、體育、娛樂(lè)等在內(nèi)的 社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。

在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應(yīng)用有力促進(jìn)了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)

在就業(yè)市場(chǎng)方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)。隨著數(shù)據(jù)科學(xué)家給企業(yè)帶來(lái)的商業(yè)價(jià)值的日益體現(xiàn),市場(chǎng)對(duì)數(shù)據(jù)科學(xué)家的需求會(huì)越發(fā)旺盛。

在人才培養(yǎng)方面,大數(shù)據(jù)的興起,將在很大程度上改變中國(guó)高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制。目前,國(guó)內(nèi)的數(shù)據(jù)科學(xué)家不是高校培養(yǎng)的,而主要是在企業(yè)實(shí)際應(yīng)用環(huán)境中通過(guò)邊工作邊學(xué)習(xí)的方式成長(zhǎng)起來(lái)的。互聯(lián)網(wǎng)領(lǐng)域集中了大部分的數(shù)據(jù)科學(xué)家人才。

大數(shù)據(jù)關(guān)鍵技術(shù)

大數(shù)據(jù)技術(shù)層次:

技術(shù)層面功能
數(shù)據(jù)采集利用 ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)?;蛘甙褜?shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析
數(shù)據(jù)存儲(chǔ)與管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)處理與分析利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析;對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)
數(shù)據(jù)隱私與安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全

大數(shù)據(jù)兩大核心技術(shù)

  • 分布式存儲(chǔ)(解決海量數(shù)據(jù)的存儲(chǔ)問(wèn)題)
  • 分布式處理(解決海量數(shù)據(jù)的處理問(wèn)題)

大數(shù)據(jù)計(jì)算模式

不同的計(jì)算模式需要使用不同的產(chǎn)品,企業(yè)中不同的應(yīng)用場(chǎng)景屬于不同的計(jì)算模式,需要使用不同的大數(shù)據(jù)技術(shù)。

典型的計(jì)算模式:

大數(shù)據(jù)計(jì)算模式解決問(wèn)題代表產(chǎn)品
批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark
流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流數(shù)據(jù)處理平臺(tái)等
圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等

大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系

云計(jì)算是通過(guò)網(wǎng)絡(luò)以服務(wù)的方式為用戶提供可伸縮的、廉價(jià)的分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時(shí)隨地獲得所需的各種IT資源。

云計(jì)算的典型特征:

  • 虛擬化
  • 多租戶

云計(jì)算的服務(wù)模式和類型:

數(shù)據(jù)中心是云計(jì)算的重要載體,為云計(jì)算提供計(jì)算、存儲(chǔ)、帶寬等各種硬件資源,為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境。數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施,包括大量的刀片服務(wù)器、寬帶網(wǎng)絡(luò)連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置等 。

物聯(lián)網(wǎng)(IoT: Internet of Things):物物相連的互聯(lián)網(wǎng),它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過(guò)新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制。

從技術(shù)架構(gòu)上來(lái)看,物聯(lián)網(wǎng)可分為四層

層次功能
感知層如果把物聯(lián)網(wǎng)比喻為一個(gè)人體,感知層就相當(dāng)于人的神經(jīng)末梢,采集來(lái)自物理世界的各種信息。感知層包含了大量的傳感器,如溫度傳感器、重力傳感器、攝像頭、GPS設(shè)備等
網(wǎng)絡(luò)層相當(dāng)于人體的神經(jīng)中樞,起到信息傳輸?shù)淖饔?。網(wǎng)絡(luò)層包含各種類型的網(wǎng)絡(luò),如互聯(lián)網(wǎng)、衛(wèi)星通信網(wǎng)絡(luò)等
處理層相當(dāng)于人體的大腦,起到存儲(chǔ)和處理的作用。處理層包括數(shù)據(jù)存儲(chǔ)、管理和分析平臺(tái)
應(yīng)用層直接面向用戶,滿足各種應(yīng)用需求。例如智慧交通、智慧農(nóng)業(yè)、智慧醫(yī)療等

物聯(lián)網(wǎng)中的關(guān)鍵技術(shù):

  • 識(shí)別和感知技術(shù)(二維碼、RFID、傳感器等)
  • 網(wǎng)絡(luò)與通信技術(shù)
  • 數(shù)據(jù)挖掘與融合技術(shù)

物聯(lián)網(wǎng)應(yīng)用:

云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢(shì),三者相輔相成,有著密不可分的關(guān)聯(lián)。

總結(jié)

以上是生活随笔為你收集整理的第一章-大数据概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。