【大数据学习-hadoop1】大数据如何处理
生活随笔
收集整理的這篇文章主要介紹了
【大数据学习-hadoop1】大数据如何处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1. 大數據啟蒙
- 1.1 意義
- 1.1.1 查找元素
- 1.1.2 單機處理大數據問題
- 1.2 歷史
- 1.3 hadoop
1. 大數據啟蒙
學習視頻
大數據多,復雜度很重要,
- 內存不夠,分治處理
- IO仍成為瓶頸,多機器并行
- 多機器間通信也可以并行,但仍是個問題
- 分發上傳,累計計算的話,多臺同時跑+通信也比一臺快
總結(大數據的重點)
- 分而治之
- 并行計算
- 計算向數據移動:數據移動化成本高
- 數據本地化讀取
1.1 意義
1.1.1 查找元素
1w個元素中查找X?
線性查找:O(N)
想要O(4)呢?hash
1.1.2 單機處理大數據問題
大文本,僅兩行一樣,想要找出。
單機,內存小(幾十兆)
2. 如果文件中全是數字,做排序呢?
桶排序:外部有序,內部無序
先分到不同桶里,再給桶內排序
歸并:一次讀50M排序,第二次在讀50M對這個50M排序–外部無序,內部無序
單機IO瓶頸,所以多機器并行
多臺機器并行操作,處理速度快,但不同機器間網絡通信?
1.2 歷史
Hadoop
NDFS(一開始的文件系統)
hadoop.apache.org:頂級項目
1.3 hadoop
hadoop項目包含:
1.x:
hadoop common
hdfs(hadoop distributed file system
hadoop mapreduce
2.x:
新增yarn:job管理、資源分配
其他相關項目(生態圈):
Hbase:
Hive:sql、數倉
Spark:用內存,更快,是hadoop的十倍
Zookeeper:協調服務
…
網站:www.cloudera.com
ducumentation:選擇版本
目前企業版本:5.16.X–可靠,hadoop2.6
原來:batch批量計算
flink/spark:全棧的
- flink:阿里用的多:流式計算,來一個搞一個/5min跑一次
- 可以實時
- spark:偽實時
總結
以上是生活随笔為你收集整理的【大数据学习-hadoop1】大数据如何处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 9 计算机组成原理第五章 中央处理器
- 下一篇: 课程设计-毕业设计-JAVA画板课程设计