日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop四大组件介绍

發(fā)布時間:2023/12/14 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop四大组件介绍 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.學(xué)習(xí)Hadoop之前需要的基礎(chǔ),javaSE(基礎(chǔ)),EE(SSM),Linux基礎(chǔ),因為90%的框架都是用java寫的,Hadoop、hive、HBase、下面是Hadoop的有關(guān)介紹。

2.學(xué)習(xí)大數(shù)據(jù)里面最核心的就是Hadoop,我們知道什么是大數(shù)據(jù)。就是一個非常龐大的數(shù)據(jù),計算機(jī)無法直接取讀取以及分析處理,這個時候就要用到我們學(xué)到的大數(shù)據(jù)。

? ?

? Hadoop的四大組件:

? ? ? ? common、HDFS、MapReduce、YARN

? ? ? ? common(工具類):

? ? ? ? ?包括Hadoop常用的工具類,由原來的Hadoopcore部分更名而來。主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴嬎悱h(huán)境提供基本的服務(wù),并為運(yùn)行在該平臺上的軟件開發(fā)提供了所需的API。

? ? ? ? Hadoop Distributed File System(HDFS):

? ? ? ? Hadoop實現(xiàn)了一個分布式的文件系統(tǒng),HDFS為海量的數(shù)據(jù)提供了存儲。HDFS是基于節(jié)點的形式進(jìn)行構(gòu)建的,里面有一個父節(jié)點NameNode,他在機(jī)器內(nèi)部提供了服務(wù),NameNode本身不干活,NameNode將數(shù)據(jù)分成塊,只是把數(shù)據(jù)分發(fā)給子節(jié)點,交由子節(jié)點來進(jìn)行存儲,由于只存在一個父節(jié)點,所以這是HDFS的一個缺點,單點失敗。以及n個子節(jié)點dataNode,dataNode在機(jī)器內(nèi)部提供了數(shù)據(jù)塊,存儲在HDFS的數(shù)據(jù)被分成塊,然后將這些塊分到多個計算機(jī)(dataNode)中,這與傳統(tǒng)的RAID架構(gòu)大有不同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機(jī)決定。NameNode可以控制所有文件操作。

?

NameNode:

NameNode 是一個通常在 HDFS實例中的單獨機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。NameNode 決定是否將文件映射到 DataNode 上的復(fù)制塊上。對于最常見的 3 個復(fù)制塊,第一個復(fù)制塊存儲在同一機(jī)架的不同節(jié)點上,最后一個復(fù)制塊存儲在不同機(jī)架的某個節(jié)點上。

DataNode:

DataNode 也是一個通常在HDFS實例中的單獨機(jī)器上運(yùn)行的軟件。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機(jī)架的形式組織,機(jī)架通過一個交換機(jī)將所有系統(tǒng)連接起來。Hadoop 的一個假設(shè)是:機(jī)架內(nèi)部節(jié)點之間的傳輸速度快于機(jī)架間節(jié)點的傳輸速度。

?

MapReduce:

?基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。是一種計算模型,用以進(jìn)行大數(shù)據(jù)量的計算。Hadoop的MapReduce實現(xiàn),和Common、HDFS一起,構(gòu)成了Hadoop發(fā)展初期的三個組件。MapReduce將應(yīng)用劃分為Map和Reduce兩個步驟,其中Map對數(shù)據(jù)集上的獨立元素進(jìn)行指定的操作,生成鍵-值對形式中間結(jié)果。Reduce則對中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在大量計算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。

?

YARN:

分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)

??????????? 合理調(diào)度分配給各個程序(MapReduce)使用

??????????? 主節(jié)點:resourceManager

????????????????? 掌管集群中的資源

??????????? 從節(jié)點:nodeManager

????????????????? 管理每臺集群資源

?

總結(jié):Hadoop的安裝部署

??????????? 都屬于java進(jìn)程,就是啟動了JVM進(jìn)程,運(yùn)行服務(wù)。

??????????? HDFS:存儲數(shù)據(jù),提供分析的數(shù)據(jù)

????????????????? NameNode/DataNode

??????????? YARN:提供程序運(yùn)行的資源

????????????????? ResourceManager/NodeManager

總結(jié)

以上是生活随笔為你收集整理的Hadoop四大组件介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。