Hadoop基础--HDFS/Yarn/MapReduce概述
HDFS概述==>
1. Hadoop優(yōu)勢(4高):
1.高可靠性: Hadoop底層維護(hù)多個數(shù)據(jù)副本,所以即使Hadoop某個計算元素或存儲出現(xiàn)故障,也不會導(dǎo)致數(shù)據(jù)的丟失;
2.高擴展型: 在集群間分配任務(wù)數(shù)據(jù),可方便的擴展數(shù)以千計的節(jié)點;
3.高效性: 在MapReduce的思想下,Hadoop是并行工作的,以加快任務(wù)處理速度;
4.高容錯性: 能夠自動將失敗的任務(wù)重新分配。
2. Hadoop1.x、2.x、3.x區(qū)別:
在Hadoop1.x時代,Hadoop中的MapReduce同時處理業(yè)務(wù)邏輯運算和資源的調(diào)度,耦合性較大。
在Hadoop2.x時代,增加了Yarn。Yarn只負(fù)責(zé)資源的調(diào)度,MapReduce只負(fù)責(zé)運算。
Hadoop3.x在組成上沒有變化。
HDFS架構(gòu)概述:
1.NameNode(nn):存儲文件的元數(shù)據(jù),如文件名、文件目錄結(jié)構(gòu)、文件屬性(生成時間、副本數(shù)、文件權(quán)限),以及每個文件的塊列表和塊所在的DataNode等;
2.DataNode(dn):在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和;
3.SecondaryNameNode(2nn):每隔一段時間對NameNode元數(shù)據(jù)備份。
Yarn架構(gòu)概述:
Yarn(Yet Another Resource Negotiator),另一種資源協(xié)調(diào)者,是Hadoop的資源管理器。
ResourceManager(RM):管理整個集群資源(內(nèi)存、CPU等);
NodeManager(NM):管理單個節(jié)點服務(wù)器資源;
ApplicationMaster(AM):管理單個任務(wù)運行;
Container:容器,相當(dāng)于一臺獨立的服務(wù)器,里面封裝了任務(wù)運行所需要的資源,如內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等;
MapReduce架構(gòu)概述:
MapReduce將計算過程分為兩個階段:Map和Reduce:
1.Map階段并行處理輸入數(shù)據(jù);
2.Reduce階段對Map結(jié)果進(jìn)行匯總;
HDFS/Yarn/MapReduce三者關(guān)系:
大數(shù)據(jù)技術(shù)生態(tài)體系:
總結(jié)
以上是生活随笔為你收集整理的Hadoop基础--HDFS/Yarn/MapReduce概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Project Euler 126 -
- 下一篇: SSD固态存储大观(二)