百万大数据架构师学习笔记
什么是大數據技術?
對于一個從事大數據行業人來說,一切數據都是有意義的。因為通過數據采集、數據存儲、數據管理、數據分析與挖掘、數據展現等,我們可以發現很多有用的或有意思的規律和結論。
比如,北京公交一卡通每天產生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規律,來有效改善城市交通。
但這4千萬條刷卡數據 ,不是想用就能用的,需要通過“存儲”“計算”“智能”來對數據進行加工和支撐,從而實現數據的增值。
而在這其中,最關鍵的問題不在于數據技術本身,而在于是否實現兩個標準:第一,這4千萬條記錄,是否足夠多,足夠有價值;第二,是否找到適合的數據技術的業務應用。
下面就來簡單說說上述提到的一些和“大數據“”形影不離的“小伙伴們”——
云計算
由于大數據的采集、存儲和計算的量都非常大,所以大數據需要特殊的技術,以有效地處理大量的數據。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
可以說,大數據相當于海量數據的“數據庫”,云計算相當于計算機和操作系統,將大量的硬件資源虛擬化后再進行分配使用。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時交互式的查詢效率和分析能力, “動一下鼠標就可以在秒級操作PB級別的數據”。
Hadoop/HDFS /Mapreduce/Spark
除了云計算,分布式系統基礎架構Hadoop的出現,為大數據帶來了新的曙光。
Hadoop是Apache軟件基金會旗下的一個分布式計算平臺,為用戶提供了系統底層細節透明的開源分部式基礎架構。它是一款用Java編寫的開源軟件框架,用于分布式存儲,并對非常大的數據集進行分布式處理,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,現在Hadoop被公認為行業大數據標準開源軟件。
而HDFS為海量的數據提供了存儲;Mapreduce則為海量的數據提供了并行計算,從而大大提高計算效率。它是一種編程模型,用于大規模數據集(大于1TB)的并行運算,能允許開發者在不具備開發經驗的前提下也能夠開發出分布式的并行程序,并讓其運行在數百臺機器上,在短時間完成海量數據的計算。
在使用了一段時間的 MapReduce 以后,程序員發現 MapReduce 的程序寫起來太麻煩,希望能夠封裝出一種更簡單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同時Spark/storm/impala等各種各樣的技術也相繼進入數據科學的視野。比如Spark是Apache Software Foundation中最活躍的項目,是一個開源集群計算框架,也是一個非常看重速度的大數據處理平臺。
打個比方,如果我們把上面提到的4千萬條記錄比喻成“米”,那么,我們可以用“HDFS”儲存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學習框架Tensorflow),就相當于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。
鏈接:https://pan.baidu.com/s/1_4PIUb-Yl68aTW9Bw95iJA
提取碼:tnav
總結
以上是生活随笔為你收集整理的百万大数据架构师学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么叫做绩效奖金 关系着你工资的高低
- 下一篇: 私家车有必要买驾乘险吗