當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【大数据学习-hadoop1】大数据如何处理

發布時間：2024/7/5 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了【大数据学习-hadoop1】大数据如何处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1. 大數據啟蒙
- 1.1 意義
- - 1.1.1 查找元素
  - 1.1.2 單機處理大數據問題
1.2 歷史
1.3 hadoop

1. 大數據啟蒙

學習視頻
大數據多，復雜度很重要，

內存不夠，分治處理
IO仍成為瓶頸，多機器并行
多機器間通信也可以并行，但仍是個問題
- 分發上傳，累計計算的話，多臺同時跑+通信也比一臺快

總結（大數據的重點）

分而治之
并行計算
計算向數據移動：數據移動化成本高
數據本地化讀取

1.1 意義

1.1.1 查找元素

1w個元素中查找X？
線性查找：O(N)
想要O(4)呢？hash

1.1.2 單機處理大數據問題

大文本，僅兩行一樣，想要找出。
單機，內存小（幾十兆）

2. 如果文件中全是數字，做排序呢？
桶排序：外部有序，內部無序
先分到不同桶里，再給桶內排序

歸并：一次讀50M排序，第二次在讀50M對這個50M排序–外部無序，內部無序

單機IO瓶頸，所以多機器并行

多臺機器并行操作，處理速度快，但不同機器間網絡通信?

1.2 歷史

Hadoop
NDFS（一開始的文件系統）
hadoop.apache.org:頂級項目

1.3 hadoop

hadoop項目包含：
1.x:
hadoop common
hdfs(hadoop distributed file system
hadoop mapreduce
2.x:
新增yarn：job管理、資源分配

其他相關項目（生態圈）：
Hbase：
Hive：sql、數倉
Spark：用內存，更快，是hadoop的十倍
Zookeeper:協調服務
…

網站：www.cloudera.com
ducumentation:選擇版本
目前企業版本：5.16.X–可靠，hadoop2.6
原來：batch批量計算
flink/spark:全棧的

flink:阿里用的多：流式計算，來一個搞一個/5min跑一次
- 可以實時
spark:偽實時

總結

以上是生活随笔為你收集整理的【大数据学习-hadoop1】大数据如何处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 9 计算机组成原理第五章中央处理器
下一篇：课程设计-毕业设计-JAVA画板课程设计