當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大讲台大数据特训学习笔记

發(fā)布時(shí)間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了大讲台大数据特训学习笔记小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

什么是大數(shù)據(jù)技術(shù)？
對(duì)于一個(gè)從事大數(shù)據(jù)行業(yè)人來說，一切數(shù)據(jù)都是有意義的。因?yàn)橥ㄟ^數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)等，我們可以發(fā)現(xiàn)很多有用的或有意思的規(guī)律和結(jié)論。

比如，北京公交一卡通每天產(chǎn)生4千萬條刷卡記錄，分析這些刷卡記錄，可以清晰了解北京市民的出行規(guī)律，來有效改善城市交通。

但這4千萬條刷卡數(shù)據(jù) ，不是想用就能用的，需要通過“存儲(chǔ)”“計(jì)算”“智能”來對(duì)數(shù)據(jù)進(jìn)行加工和支撐，從而實(shí)現(xiàn)數(shù)據(jù)的增值。

而在這其中，最關(guān)鍵的問題不在于數(shù)據(jù)技術(shù)本身，而在于是否實(shí)現(xiàn)兩個(gè)標(biāo)準(zhǔn)：第一，這4千萬條記錄，是否足夠多，足夠有價(jià)值；第二，是否找到適合的數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用。

下面就來簡單說說上述提到的一些和“大數(shù)據(jù)“”形影不離的“小伙伴們”——

云計(jì)算
由于大數(shù)據(jù)的采集、存儲(chǔ)和計(jì)算的量都非常大，所以大數(shù)據(jù)需要特殊的技術(shù)，以有效地處理大量的數(shù)據(jù)。

從技術(shù)上看，大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理，必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化技術(shù)。

可以說，大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”，云計(jì)算相當(dāng)于計(jì)算機(jī)和操作系統(tǒng)，將大量的硬件資源虛擬化后再進(jìn)行分配使用。

整體來看，未來的趨勢(shì)是，云計(jì)算作為計(jì)算資源的底層，支撐著上層的大數(shù)據(jù)處理，而大數(shù)據(jù)的發(fā)展趨勢(shì)是，實(shí)時(shí)交互式的查詢效率和分析能力， “動(dòng)一下鼠標(biāo)就可以在秒級(jí)操作PB級(jí)別的數(shù)據(jù)”。

Hadoop/HDFS /Mapreduce/Spark
除了云計(jì)算，分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn)，為大數(shù)據(jù)帶來了新的曙光。

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)分布式計(jì)算平臺(tái)，為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的開源分部式基礎(chǔ)架構(gòu)。它是一款用Java編寫的開源軟件框架，用于分布式存儲(chǔ)，并對(duì)非常大的數(shù)據(jù)集進(jìn)行分布式處理，用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序，現(xiàn)在Hadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件。

而HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)；Mapreduce則為海量的數(shù)據(jù)提供了并行計(jì)算，從而大大提高計(jì)算效率。它是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算，能允許開發(fā)者在不具備開發(fā)經(jīng)驗(yàn)的前提下也能夠開發(fā)出分布式的并行程序，并讓其運(yùn)行在數(shù)百臺(tái)機(jī)器上，在短時(shí)間完成海量數(shù)據(jù)的計(jì)算。

在使用了一段時(shí)間的 MapReduce 以后，程序員發(fā)現(xiàn) MapReduce 的程序?qū)懫饋硖闊?#xff0c;希望能夠封裝出一種更簡單的方式去完成 MapReduce 程序，于是就有了 Pig 和 Hive。

同時(shí)Spark/storm/impala等各種各樣的技術(shù)也相繼進(jìn)入數(shù)據(jù)科學(xué)的視野。比如Spark是Apache Software Foundation中最活躍的項(xiàng)目，是一個(gè)開源集群計(jì)算框架，也是一個(gè)非常看重速度的大數(shù)據(jù)處理平臺(tái)。

打個(gè)比方，如果我們把上面提到的4千萬條記錄比喻成“米”，那么，我們可以用“HDFS”儲(chǔ)存更多的米，更豐富的食材；如果我們有了“Spark”這些組件（包括深度學(xué)習(xí)框架Tensorflow），就相當(dāng)于有了“鍋碗瓢盆”，基本上就能做出一頓可口的飯菜了。

鏈接：https://pan.baidu.com/s/1_4PIUb-Yl68aTW9Bw95iJA
提取碼：tnav

總結(jié)

以上是生活随笔為你收集整理的大讲台大数据特训学习笔记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。