Hadoop基础--HDFS/Yarn/MapReduce概述
HDFS概述==>
1. Hadoop優勢(4高):
1.高可靠性: Hadoop底層維護多個數據副本,所以即使Hadoop某個計算元素或存儲出現故障,也不會導致數據的丟失;
2.高擴展型: 在集群間分配任務數據,可方便的擴展數以千計的節點;
3.高效性: 在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理速度;
4.高容錯性: 能夠自動將失敗的任務重新分配。
2. Hadoop1.x、2.x、3.x區別:
在Hadoop1.x時代,Hadoop中的MapReduce同時處理業務邏輯運算和資源的調度,耦合性較大。
在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的調度,MapReduce只負責運算。
Hadoop3.x在組成上沒有變化。
HDFS架構概述:
1.NameNode(nn):存儲文件的元數據,如文件名、文件目錄結構、文件屬性(生成時間、副本數、文件權限),以及每個文件的塊列表和塊所在的DataNode等;
2.DataNode(dn):在本地文件系統存儲文件塊數據,以及塊數據的校驗和;
3.SecondaryNameNode(2nn):每隔一段時間對NameNode元數據備份。
Yarn架構概述:
Yarn(Yet Another Resource Negotiator),另一種資源協調者,是Hadoop的資源管理器。
ResourceManager(RM):管理整個集群資源(內存、CPU等);
NodeManager(NM):管理單個節點服務器資源;
ApplicationMaster(AM):管理單個任務運行;
Container:容器,相當于一臺獨立的服務器,里面封裝了任務運行所需要的資源,如內存、CPU、磁盤、網絡等;
MapReduce架構概述:
MapReduce將計算過程分為兩個階段:Map和Reduce:
1.Map階段并行處理輸入數據;
2.Reduce階段對Map結果進行匯總;
HDFS/Yarn/MapReduce三者關系:
大數據技術生態體系:
總結
以上是生活随笔為你收集整理的Hadoop基础--HDFS/Yarn/MapReduce概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Project Euler 126 -
- 下一篇: SSD固态存储大观(二)