Hadoop集群部署模型纵览1
vSphere Big Data Extensions(簡稱BDE)支持多種部署方式來構建Hadoop集群。按:
存儲/計算綁定模型:將存儲節點(Data Node)和計算節點(Task Tracker)部署在相同的虛擬機中。這是最直接簡單的部署模型,可以用于概念驗證和承載小規模集群的數據處理任務。
單一計算模型:只部署計算節點(Job Tracker和Task Tracker)的集群類型。
存儲/計算分離模型:將存儲節點(Data Node)和計算節點(Task Tracker)部署在不同的虛擬機中,并且根據特定的業務需求,通過相應的分布算法決定集群在vSphereESX物理主機上的拓撲結構。
自定制集群:用戶可以根據具體的業務需求,自定制集群的部署結構、資源模型和配置參數。
本文我們將著重介紹前2個部署模型,即存儲/計算綁定模型和單一計算模型。
存儲和計算節點綁定模型(Data-Compute Combined Deployment)
通常情況下,我們為了保證Hadoop集群數據本地化(Data Locality)的需要,會將存儲(DataNode)和計算(TaskTracker)服務部署在相同節點上。Big Data Extensions也提供這樣的部署模式。
你可以使用BDE的命令行工具,通過運行cluster create --name cluster_name命令創建一個基本的默認Hadoop集群。
這類集群將包含一個主節點(master),運行Apache Hadoop 1.2.1(BDE 1.0內置的默認Hadoop發行版)的NameNode和JobTracker;三個工作節點(worker),運行DataNode和TaskTracker;一個客戶端節點(Clientnode),運行Hadoop客戶端,Pig和Hive等。
這里將DataNode和TaskTracker搭建在同一個虛擬機節點內部,這就是存儲和計算節點綁定模型。
單一計算節點模型(Compute-OnlyDeployment)
如果你的生產或開發環境里已經有了HDFS,并且有數以TB的分析型數據存在于其中,商業分析團隊根據新的業務需求,開發新功能去挖掘新的模式,這時您可以搭建一個單一計算節點集群(Compute-OnlyCluster)。
單一計算節點集群指的是只部署MapReduce服務,包括Jobtracker和Tasktracker,并且鏈接到某個已經存在的HDFS上。這樣做的好處有很多,首先可以避免搭建完整集群后的大規模數據拷貝或遷移,減少開發環境的等待時間,可以立即部署立即使用,非常適合臨時性的開發測試環境;其次,也可以在不同的計算集群之間做到性能隔離,安全性隔離和故障隔離;另外,在兼容性滿足的情況下,您也可以使用第三方的商業版HDFS如Isilon等等。
對于單一計算節點集群,您也可以使用動態伸縮功能(Auto-Elasiticity)來動態地調配您的資源。
下面列舉了這種集群部署的實例定義文件,您可以使用它創建Compute-OnlyCluster。externalHDFS字段定義了要使用的已存在的HDFS服務。請將hadoop_jobtracker角色賦給master節點組,將hadoop_tasktracker角色賦給worker節點組。對于externalHDFS所指定的HDFS集群,默認情況下請設置port_num為8020。對于Hadoop2.0集群,例如CDH4或是PivotalHD等,默認情況下請設置port_num為9000。在集群定義文件中,ExternalHDFS字段和hadoop_namenode,hadoop_datanode角色不能同時存在,否則可能會導致集群創建失敗或創建的集群無法正常運行。
{ "externalHDFS": "hdfs://<hostname-of-namenode>:<port_num>", "nodeGroups": [ { "name": "master", "roles": [ "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, { "name": "worker", "roles": [ "hadoop_tasktracker", ], "instanceNum": 4, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 }, }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 }, } ] } |
如有任何問題,您可以發郵件至bigdata_apac@vmware.com。
關于vSphere Big Data Extensions:
VMware vSphere Big Data Extensions(簡稱BDE)基于vSphere平臺支持大數據和Apache Hadoop作業。BDE以開源Serengeti項目為基礎,為企業級用戶提供一系列整合的管理工具,通過在vSphere上虛擬化Apache Hadoop,幫助用戶在基礎設施上實現靈活、彈性、安全和快捷的大數據部署、運行和管理工作。了解更多關于VMware vSphere Big Data Extensions的信息,請參見http://www.vmware.com/hadoop。
作者介紹
張錦波
VMware大數據解決方案工程師
目前負責VMware大數據解決方案的架構和實現,是大數據方面的技術專家。曾擔任vSphere Big Data Extensions(BDE)、Serengeti等大數據項目的產品經理,負責集群管理,高可靠性和彈性伸縮等重要功能的規劃。在此之前就職于EMC,從事數據庫管理等產品的研發工作。
總結
以上是生活随笔為你收集整理的Hadoop集群部署模型纵览1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JavaScript基础三
- 下一篇: 辽源a货翡翠,张掖a货翡翠