當前位置：首頁 > 运维知识 > windows >内容正文

windows

Hadoop生态系统详解

發布時間：2024/3/24 windows 63 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop生态系统详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

4.1 Hadoop生態系統

狹義的Hadoop VS 廣義的Hadoop

廣義的Hadoop：指的是Hadoop生態系統，Hadoop生態系統是一個很龐大的概念，hadoop是其中最重要最基礎的一個部分，生態系統中每一子系統只解決某一個特定的問題域（甚至可能更窄），不搞統一型的全能系統，而是小而精的多個小系統；

Hive:數據倉庫

R:數據分析

Mahout:機器學習庫

pig：腳本語言，跟Hive類似

Oozie:工作流引擎，管理作業執行順序

Zookeeper:用戶無感知，主節點掛掉選擇從節點作為主的

Flume:日志收集框架

Sqoop:數據交換框架，例如：關系型數據庫與HDFS之間的數據交換

Hbase : 海量數據中的查詢，相當于分布式文件系統中的數據庫

Spark: 分布式的計算框架基于內存

spark core
spark sql
spark streaming 準實時不算是一個標準的流式計算
spark ML spark MLlib

Kafka: 消息隊列

Storm: 分布式的流式計算框架 python操作storm

Flink: 分布式的流式計算框架

Hadoop生態系統的特點

開源、社區活躍
囊括了大數據處理的方方面面
成熟的生態圈

4.2HDFS 讀寫流程& 高可用

HDFS讀寫流程
- 客戶端向NameNode發出寫文件請求。
- 檢查是否已存在文件、檢查權限。若通過檢查，直接先將操作寫入EditLog，并返回輸出流對象。
  （注：WAL，write ahead log，先寫Log，再寫內存，因為EditLog記錄的是最新的HDFS客戶端執行所有的寫操作。如果后續真實寫操作失敗了，由于在真實寫操作之前，操作就被寫入EditLog中了，故EditLog中仍會有記錄，我們不用擔心后續client讀不到相應的數據塊，因為在第5步中DataNode收到塊后會有一返回確認信息，若沒寫成功，發送端沒收到確認信息，會一直重試，直到成功）
- client端按128MB的塊切分文件。
- client將NameNode返回的分配的可寫的DataNode列表和Data數據一同發送給最近的第一個DataNode節點，此后client端和NameNode分配的多個DataNode構成pipeline管道，client端向輸出流對象中寫數據。client每向第一個DataNode寫入一個packet，這個packet便會直接在pipeline里傳給第二個、第三個…DataNode。
  （注：并不是寫好一個塊或一整個文件后才向后分發）
- 每個DataNode寫完一個塊后，會返回確認信息。
  （注：并不是每寫完一個packet后就返回確認信息，個人覺得因為packet中的每個chunk都攜帶校驗信息，沒必要每寫一個就匯報一下，這樣效率太慢。正確的做法是寫完一個block塊后，對校驗信息進行匯總分析，就能得出是否有塊寫錯的情況發生）
- 寫完數據，關閉輸輸出流。
- 發送完成信號給NameNode。
  
  （注：發送完成信號的時機取決于集群是強一致性還是最終一致性，強一致性則需要所有DataNode寫完后才向NameNode匯報。最終一致性則其中任意一個DataNode寫完后就能單獨向NameNode匯報，HDFS一般情況下都是強調強一致性）
HDFS如何實現高可用(HA)
- 數據存儲故障容錯
  - 磁盤介質在存儲過程中受環境或者老化影響,數據可能錯亂
  - 對于存儲在 DataNode 上的數據塊，計算并存儲校驗和（CheckSum)
  - 讀取數據的時候, 重新計算讀取出來的數據校驗和, 校驗不正確拋出異常, 從其它DataNode上讀取備份數據
- 磁盤故障容錯
  - DataNode 監測到本機的某塊磁盤損壞
  - 將該塊磁盤上存儲的所有 BlockID 報告給 NameNode
  - NameNode 檢查這些數據塊在哪些DataNode上有備份,
  - 通知相應DataNode, 將數據復制到其他服務器上
- DataNode故障容錯
  - 通過心跳和NameNode保持通訊
  - 超時未發送心跳, NameNode會認為這個DataNode已經宕機
  - NameNode查找這個DataNode上有哪些數據塊, 以及這些數據在其它DataNode服務器上的存儲情況
  - 從其它DataNode服務器上復制數據
- NameNode故障容錯
  - 主從熱備 secondary namenode
  - zookeeper配合 master節點選舉

dary namenode
- zookeeper配合 master節點選舉

總結

以上是生活随笔為你收集整理的Hadoop生态系统详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一道OJ题目：浮点数排序
下一篇： Windows 系统下搭建 WAMP 环

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

Hadoop生态系统详解

4.1 Hadoop生態系統

4.2HDFS 讀寫流程& 高可用

總結