當前位置：首頁 >

Hadoop集群部署模型纵览1

發布時間：2025/3/17 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop集群部署模型纵览1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

vSphere Big Data Extensions（簡稱BDE）支持多種部署方式來構建Hadoop集群。按：

存儲/計算綁定模型：將存儲節點（Data Node）和計算節點（Task Tracker）部署在相同的虛擬機中。這是最直接簡單的部署模型，可以用于概念驗證和承載小規模集群的數據處理任務。
單一計算模型：只部署計算節點（Job Tracker和Task Tracker）的集群類型。
存儲/計算分離模型：將存儲節點（Data Node）和計算節點（Task Tracker）部署在不同的虛擬機中，并且根據特定的業務需求，通過相應的分布算法決定集群在vSphereESX物理主機上的拓撲結構。
自定制集群：用戶可以根據具體的業務需求，自定制集群的部署結構、資源模型和配置參數。

本文我們將著重介紹前2個部署模型，即存儲/計算綁定模型和單一計算模型。

存儲和計算節點綁定模型（Data-Compute Combined Deployment）

通常情況下，我們為了保證Hadoop集群數據本地化（Data Locality）的需要，會將存儲（DataNode）和計算（TaskTracker）服務部署在相同節點上。Big Data Extensions也提供這樣的部署模式。

你可以使用BDE的命令行工具，通過運行cluster create --name cluster_name命令創建一個基本的默認Hadoop集群。

這類集群將包含一個主節點（master），運行Apache Hadoop 1.2.1（BDE 1.0內置的默認Hadoop發行版）的NameNode和JobTracker；三個工作節點（worker），運行DataNode和TaskTracker；一個客戶端節點（Clientnode），運行Hadoop客戶端，Pig和Hive等。

這里將DataNode和TaskTracker搭建在同一個虛擬機節點內部，這就是存儲和計算節點綁定模型。

單一計算節點模型（Compute-OnlyDeployment）

如果你的生產或開發環境里已經有了HDFS，并且有數以TB的分析型數據存在于其中，商業分析團隊根據新的業務需求，開發新功能去挖掘新的模式，這時您可以搭建一個單一計算節點集群（Compute-OnlyCluster）。

單一計算節點集群指的是只部署MapReduce服務，包括Jobtracker和Tasktracker，并且鏈接到某個已經存在的HDFS上。這樣做的好處有很多，首先可以避免搭建完整集群后的大規模數據拷貝或遷移，減少開發環境的等待時間，可以立即部署立即使用，非常適合臨時性的開發測試環境；其次，也可以在不同的計算集群之間做到性能隔離，安全性隔離和故障隔離；另外，在兼容性滿足的情況下，您也可以使用第三方的商業版HDFS如Isilon等等。

對于單一計算節點集群，您也可以使用動態伸縮功能（Auto-Elasiticity）來動態地調配您的資源。

下面列舉了這種集群部署的實例定義文件，您可以使用它創建Compute-OnlyCluster。externalHDFS字段定義了要使用的已存在的HDFS服務。請將hadoop_jobtracker角色賦給master節點組，將hadoop_tasktracker角色賦給worker節點組。對于externalHDFS所指定的HDFS集群，默認情況下請設置port_num為8020。對于Hadoop2.0集群，例如CDH4或是PivotalHD等，默認情況下請設置port_num為9000。在集群定義文件中，ExternalHDFS字段和hadoop_namenode，hadoop_datanode角色不能同時存在，否則可能會導致集群創建失敗或創建的集群無法正常運行。

{

"externalHDFS": "hdfs://<hostname-of-namenode>:<port_num>",

"nodeGroups": [

{

"name": "master",

"roles": [

"hadoop_jobtracker"

"instanceNum": 1,

"cpuNum": 2,

"memCapacityMB": 7500,

{

"name": "worker",

"roles": [

"hadoop_tasktracker",

"instanceNum": 4,

"cpuNum": 2,

"memCapacityMB": 7500,

"storage": {

"type": "LOCAL",

"sizeGB": 20

{

"name": "client",

"roles": [

"hadoop_client",

"hive",

"pig"

"instanceNum": 1,

"cpuNum": 1,

"storage": {

"type": "LOCAL",

"sizeGB": 50

}

]

}

如有任何問題，您可以發郵件至bigdata_apac@vmware.com。

關于vSphere Big Data Extensions:

VMware vSphere Big Data Extensions（簡稱BDE）基于vSphere平臺支持大數據和Apache Hadoop作業。BDE以開源Serengeti項目為基礎，為企業級用戶提供一系列整合的管理工具，通過在vSphere上虛擬化Apache Hadoop，幫助用戶在基礎設施上實現靈活、彈性、安全和快捷的大數據部署、運行和管理工作。了解更多關于VMware vSphere Big Data Extensions的信息，請參見http://www.vmware.com/hadoop。

作者介紹

張錦波

VMware大數據解決方案工程師

目前負責VMware大數據解決方案的架構和實現，是大數據方面的技術專家。曾擔任vSphere Big Data Extensions（BDE）、Serengeti等大數據項目的產品經理，負責集群管理，高可靠性和彈性伸縮等重要功能的規劃。在此之前就職于EMC，從事數據庫管理等產品的研發工作。

總結

以上是生活随笔為你收集整理的Hadoop集群部署模型纵览1的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Hadoop集群部署模型纵览1

存儲和計算節點綁定模型（Data-Compute Combined Deployment）

單一計算節點模型（Compute-OnlyDeployment）

總結