Hadoop四大组件介绍
1.學(xué)習(xí)Hadoop之前需要的基礎(chǔ),javaSE(基礎(chǔ)),EE(SSM),Linux基礎(chǔ),因為90%的框架都是用java寫的,Hadoop、hive、HBase、下面是Hadoop的有關(guān)介紹。
2.學(xué)習(xí)大數(shù)據(jù)里面最核心的就是Hadoop,我們知道什么是大數(shù)據(jù)。就是一個非常龐大的數(shù)據(jù),計算機(jī)無法直接取讀取以及分析處理,這個時候就要用到我們學(xué)到的大數(shù)據(jù)。
? ?
? Hadoop的四大組件:
? ? ? ? common、HDFS、MapReduce、YARN
? ? ? ? common(工具類):
? ? ? ? ?包括Hadoop常用的工具類,由原來的Hadoopcore部分更名而來。主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴嬎悱h(huán)境提供基本的服務(wù),并為運(yùn)行在該平臺上的軟件開發(fā)提供了所需的API。
? ? ? ? Hadoop Distributed File System(HDFS):
? ? ? ? Hadoop實現(xiàn)了一個分布式的文件系統(tǒng),HDFS為海量的數(shù)據(jù)提供了存儲。HDFS是基于節(jié)點的形式進(jìn)行構(gòu)建的,里面有一個父節(jié)點NameNode,他在機(jī)器內(nèi)部提供了服務(wù),NameNode本身不干活,NameNode將數(shù)據(jù)分成塊,只是把數(shù)據(jù)分發(fā)給子節(jié)點,交由子節(jié)點來進(jìn)行存儲,由于只存在一個父節(jié)點,所以這是HDFS的一個缺點,單點失敗。以及n個子節(jié)點dataNode,dataNode在機(jī)器內(nèi)部提供了數(shù)據(jù)塊,存儲在HDFS的數(shù)據(jù)被分成塊,然后將這些塊分到多個計算機(jī)(dataNode)中,這與傳統(tǒng)的RAID架構(gòu)大有不同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機(jī)決定。NameNode可以控制所有文件操作。
?
NameNode:
NameNode 是一個通常在 HDFS實例中的單獨機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。NameNode 決定是否將文件映射到 DataNode 上的復(fù)制塊上。對于最常見的 3 個復(fù)制塊,第一個復(fù)制塊存儲在同一機(jī)架的不同節(jié)點上,最后一個復(fù)制塊存儲在不同機(jī)架的某個節(jié)點上。
DataNode:
DataNode 也是一個通常在HDFS實例中的單獨機(jī)器上運(yùn)行的軟件。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機(jī)架的形式組織,機(jī)架通過一個交換機(jī)將所有系統(tǒng)連接起來。Hadoop 的一個假設(shè)是:機(jī)架內(nèi)部節(jié)點之間的傳輸速度快于機(jī)架間節(jié)點的傳輸速度。
?
MapReduce:
?基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。是一種計算模型,用以進(jìn)行大數(shù)據(jù)量的計算。Hadoop的MapReduce實現(xiàn),和Common、HDFS一起,構(gòu)成了Hadoop發(fā)展初期的三個組件。MapReduce將應(yīng)用劃分為Map和Reduce兩個步驟,其中Map對數(shù)據(jù)集上的獨立元素進(jìn)行指定的操作,生成鍵-值對形式中間結(jié)果。Reduce則對中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在大量計算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。
?
YARN:
分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)
??????????? 合理調(diào)度分配給各個程序(MapReduce)使用
??????????? 主節(jié)點:resourceManager
????????????????? 掌管集群中的資源
??????????? 從節(jié)點:nodeManager
????????????????? 管理每臺集群資源
?
總結(jié):Hadoop的安裝部署
??????????? 都屬于java進(jìn)程,就是啟動了JVM進(jìn)程,運(yùn)行服務(wù)。
??????????? HDFS:存儲數(shù)據(jù),提供分析的數(shù)據(jù)
????????????????? NameNode/DataNode
??????????? YARN:提供程序運(yùn)行的資源
????????????????? ResourceManager/NodeManager
總結(jié)
以上是生活随笔為你收集整理的Hadoop四大组件介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 六款Linux常用远程连接工具介绍
- 下一篇: FPGA中for语句描述的七人投票表决器