Hadoop概述--四大组件架构及其关系
生活随笔
收集整理的這篇文章主要介紹了
Hadoop概述--四大组件架构及其关系
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Hadoop是什么
- Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構
- 主要解決海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計算問題
- 通常Hadoop是指一個更廣泛的概念–Hadoop生態(tài)圈
Hadoop的優(yōu)勢
Hadoop的組成
- 在Hadoop1.x時代,Hadoop中的MapReduce同時處理業(yè)務邏輯運算和資源的調(diào)度,耦合性較大
- 在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的調(diào)度,MapReduce只負責運算,降低了耦合度
- Hadoop3.x在組成上沒有變化
HDFS架構(Hadoop Distributed File System)
- 是一個分布式文件系統(tǒng),將數(shù)據(jù)分塊存儲在多個服務器上
- NameNode(nn):存儲文件的元數(shù)據(jù),如文件名,文件目錄結(jié)構,文件屬性(生成時間、副本數(shù)、文件權限),以及每個文件的塊列表和塊所在的DataNode等。nn就相當于一個目錄
- DataNode(dn):在本地文件系統(tǒng)村塾文件塊數(shù)據(jù),以極塊數(shù)據(jù)的校驗和
- Secondary NameNode(2nn):每隔一段時間對NameNode元數(shù)據(jù)備份,如果NameNode掛了,在2nn內(nèi)還有一部分元數(shù)據(jù)
Yarn架構
-
ResourceManager(RM):整個集群資源(內(nèi)存、CPU)的管理者
-
NodeManager(NM):單個節(jié)點服務器資源的管理者
-
ApplicationMaster(AM):單個任務運行的管理者
-
Container:容器,相當于一臺獨立的服務器,里面封裝了任務運行所需要的的資源:如內(nèi)存、CPU、磁盤、網(wǎng)絡等
-
說明:客戶端可以有多個
-
集群上可以運行多個ApplicationMaster
-
每個NodeManager上可以有很多個Container
MapReduce架構
- MapReduce將整個計算過程分為兩個階段:Map、Reduce
- Map階段并行處理輸入數(shù)據(jù)
- Reduce階段對Map結(jié)果進行匯總
HDFS、YARN、MapReduce的關系:
- 客戶端發(fā)起數(shù)據(jù)處理請求,各組件工作流程如下:
大數(shù)據(jù)技術生態(tài):
- 生態(tài)圖來自尚硅谷
總結(jié)
以上是生活随笔為你收集整理的Hadoop概述--四大组件架构及其关系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于单片机的表决器(七人)系统设计(#0
- 下一篇: 项目管理-项目结项