大数据技术原理与应用(一):大数据概述
大數(shù)據(jù)時(shí)代
大數(shù)據(jù)開(kāi)始被人們所熟知是在2010年前后。
2010年前后,以云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)的普及為標(biāo)志迎來(lái)第三次信息化浪潮
大數(shù)據(jù)的概念與影響
4V
大數(shù)據(jù)由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成,90%都是非結(jié)構(gòu)化的
結(jié)構(gòu)化數(shù)據(jù)是指存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中的非常規(guī)范的數(shù)據(jù)
大數(shù)據(jù)對(duì)我們思維方式的影響
- 全樣而非抽樣(已經(jīng)由足夠的空間和計(jì)算能力對(duì)全樣數(shù)據(jù)進(jìn)行存儲(chǔ)和分析而不用去抽樣了)
- 效率而非精確(抽樣時(shí)追求精確性方式應(yīng)用到全局錯(cuò)誤被放大,而全樣數(shù)據(jù)沒(méi)有必要了,而時(shí)效性很重要,很多時(shí)候的數(shù)據(jù)價(jià)值只在一瞬間(監(jiān)控錄像))
- 相關(guān)而非因果(淘寶買(mǎi)書(shū),會(huì)給你推送另外用戶(hù)買(mǎi)了也那本書(shū),而不會(huì)告訴你為什么也買(mǎi)了那本書(shū))
大數(shù)據(jù)關(guān)鍵技術(shù)
大數(shù)據(jù)技術(shù)(分布式存儲(chǔ)和分布式處理)是以谷歌公司技術(shù)為代表的
分布式數(shù)據(jù)庫(kù)和分布式文件系統(tǒng)屬于分布式存儲(chǔ)技術(shù)
分布式并行處理技術(shù)屬于分布式處理技術(shù)
?
現(xiàn)在沒(méi)有一種大數(shù)據(jù)產(chǎn)品可以滿(mǎn)足所有需求,所以對(duì)于不同的計(jì)算模式需要使用不同的產(chǎn)品
批處理計(jì)算
MapReduce是批處理計(jì)算模式的典型代表,它不適合做實(shí)時(shí)交互式計(jì)算(主要是批處理的東西,都不可能實(shí)現(xiàn)秒級(jí)響應(yīng))
Spark也屬于批處理,但它的實(shí)時(shí)性比MapReduce要好,而且它解決了MapReduce中的一些缺點(diǎn),MapReduce沒(méi)辦法迭代計(jì)算,而Spark可以高效做迭代計(jì)算
?
大數(shù)據(jù)技術(shù)繼承自云計(jì)算
總結(jié)
以上是生活随笔為你收集整理的大数据技术原理与应用(一):大数据概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: C++总结笔记(九)—— 多态
- 下一篇: MySql为查询结果添加前、后缀