CDH大数据平台搭建之HADOOP分布式集群搭建
CDH大數(shù)據(jù)平臺搭建之HADOOP安裝
- 一、什么是HADOOP?
- 二、如何下載
- 1.官網(wǎng)下載
- 2.網(wǎng)盤下載
- 三、搭建集群
- 1.虛擬機準備
- 2.安裝JDK
- 3.安裝ZOOKEEPER
- 4.集群規(guī)劃
- 5.安裝HADOOP
- 6.修改配置文件
- 1、進入配置文件目錄:
- 2、修改env文件
- 3、修改core-site.xml文件
- 4、修改hdfs-site.xml文件
- 5、配置mapred-site.xml文件
- 6、修改yarn-site.xml文件
- 7、修改slaves文件
- 7、分發(fā)文件
- 8、配置環(huán)境變量
- 四、啟動集群
- 1.啟動ZOOKEEPER集群
- 2.啟動JournalNode
- 3.格式化namenode
- 4.格式化zkfc
- 5.啟動zkfc
- 6.啟動namenode
- 7.格式化secondarynamenode
- 8.啟動secondarynamenode
- 9.驗證是否成功
- 10.啟動datanode
- 11.啟動resourcemanager
- 12.啟動nodemanager
- 五、各個機器命令進程
- 六、網(wǎng)頁端口效果
- 1、namenode
- resourcemanager
- 七、高可用測試
- 總結(jié)
一、什么是HADOOP?
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),主要是分布式數(shù)據(jù)存儲以及計算。
二、如何下載
1.官網(wǎng)下載
1、apache版本:http://hadoop.apache.org/ 2、cdh版本(已收費):http://archive.cloudera.com/cdh5/cdh/5/2.網(wǎng)盤下載
鏈接:https://pan.baidu.com/s/18x2lc0Z7JbJ7pW-15VtiDg 提取碼:cdh5三、搭建集群
1.虛擬機準備
請參考CHD大數(shù)據(jù)平臺搭建之VMware及虛擬機安裝
以及CHD大數(shù)據(jù)平臺搭建之虛擬環(huán)境配置
2.安裝JDK
請參考CHD大數(shù)據(jù)平臺搭建之JDK安裝
3.安裝ZOOKEEPER
請參考CHD大數(shù)據(jù)平臺搭建之ZOOKEEPER安裝
4.集群規(guī)劃
請參考CHD大數(shù)據(jù)平臺搭建之集群規(guī)劃
5.安裝HADOOP
tar -zxvf hadoop-2.6.0-cdh5.7.6.tar.gz -C /opt/modules/6.修改配置文件
1、進入配置文件目錄:
cd /opt/modules/hadoop-2.6.0-cdh5.7.6/etc/hadoop2、修改env文件
配置env文件java安裝目錄 hadoop-env.sh mapred-env.sh yarn-env.sh 修改:export JAVA_HOME=/opt/modules/jdk1.8.0_913、修改core-site.xml文件
1、新建文件夾:
mkdir -p /opt/modules/hadoop-2.6.0-cdh5.7.6/data/tmp2、添加如下內(nèi)容
<property><name>fs.defaultFS</name><value>hdfs://mycluster</value> </property> <!-- 指定Hadoop運行時產(chǎn)生文件的存儲目錄 --> <property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.6.0-cdh5.7.6/datas/tmp</value> </property> <!-- zookeeper通訊地址--> <property><name>ha.zookeeper.quorum</name><value>bigdata-training03.hpsk.com:2181,bigdata-training04.hpsk.com:2181,bigdata-training05.hpsk.com:2181</value> </property>4、修改hdfs-site.xml文件
1、新建文件夾:
mkdir -p /opt/modules/hadoop-2.6.0-cdh5.7.6/data/jn2、添加如下內(nèi)容:
<!-- 完全分布式集群名稱 --> <property><name>dfs.nameservices</name><value>mycluster</value> </property><!-- 集群中NameNode節(jié)點都有哪些 --> <property><name>dfs.ha.namenodes.mycluster</name><value>nn1,nn2</value> </property><!-- nn1的RPC通信地址 --> <property><name>dfs.namenode.rpc-address.mycluster.nn1</name><value>bigdata-training01.hpsk.com:9000</value> </property><!-- nn2的RPC通信地址 --> <property><name>dfs.namenode.rpc-address.mycluster.nn2</name><value>bigdata-training03.hpsk.com:9000</value> </property><!-- nn1的http通信地址 --> <property><name>dfs.namenode.http-address.mycluster.nn1</name><value>bigdata-training01.hpsk.com:50070</value> </property><!-- nn2的http通信地址 --> <property><name>dfs.namenode.http-address.mycluster.nn2</name><value>bigdata-training03.hpsk.com:50070</value> </property><!-- 指定NameNode元數(shù)據(jù)在JournalNode上的存放位置 --> <property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://bigdata-training01.hpsk.com:8485;bigdata-training02.hpsk.com:8485;bigdata-training03.hpsk.com:8485;bigdata-training04.hpsk.com:8485;bigdata-training05.hpsk.com:8485/mycluster</value> </property><!-- 配置隔離機制,即同一時刻只能有一臺服務(wù)器對外響應(yīng) --> <property><name>dfs.ha.fencing.methods</name><value>sshfence</value> </property><!-- 使用隔離機制時需要ssh無秘鑰登錄--> <property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/home/hpsk/.ssh/id_rsa</value> </property><!-- 聲明journalnode服務(wù)器存儲目錄--> <property><name>dfs.journalnode.edits.dir</name><value>/opt/modules/hadoop-2.6.0-cdh5.7.6/datas/jn</value> </property><!-- 關(guān)閉權(quán)限檢查--> <property><name>dfs.permissions.enable</name><value>false</value> </property><!-- 訪問代理類:client,mycluster,active配置失敗自動切換實現(xiàn)方式--> <property><name>dfs.client.failover.proxy.provider.mycluster</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property><!-- 自動切換--> <property><name>dfs.ha.automatic-failover.enabled</name><value>true</value> </property>5、配置mapred-site.xml文件
1、修改文件名
mv mapred-site.xml.template mapred-site.xml2、添加如下內(nèi)容:
<!-- 指定MR運行在YARN上 --> <property><name>mapreduce.framework.name</name><value>yarn</value> </property><!-- 歷史服務(wù)器端地址 --> <property><name>mapreduce.jobhistory.address</name><value>bigdata-training02.hpsk.com:10020</value> </property>6、修改yarn-site.xml文件
1、添加如下內(nèi)容:
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value> </property><!--啟用resourcemanager ha--> <property><name>yarn.resourcemanager.ha.enabled</name><value>true</value> </property><!--聲明兩臺resourcemanager的地址--> <property><name>yarn.resourcemanager.cluster-id</name><value>cluster-yarn1</value> </property><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value> </property><property><name>yarn.resourcemanager.hostname.rm1</name><value>bigdata-training02.hpsk.com</value> </property><property><name>yarn.resourcemanager.hostname.rm2</name><value>bigdata-training03.hpsk.com</value> </property><!--指定zookeeper集群的地址--> <property><name>yarn.resourcemanager.zk-address</name><value>bigdata-training03.hpsk.com:2181,bigdata-training04.hpsk.com:2181,bigdata-training05.hpsk.com:2181</value> </property><!--啟用自動恢復(fù)--> <property><name>yarn.resourcemanager.recovery.enabled</name><value>true</value> </property><!--指定resourcemanager的狀態(tài)信息存儲在zookeeper集群--> <property><name>yarn.resourcemanager.store.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value> </property><!-- 日志聚集功能使能 --> <property><name>yarn.log-aggregation-enable</name><value>true</value> </property><!-- 日志保留時間設(shè)置7天 --> <property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value> </property>7、修改slaves文件
1、添加如下內(nèi)容:
bigdata-training01.hpsk.com bigdata-training02.hpsk.com bigdata-training03.hpsk.com bigdata-training04.hpsk.com bigdata-training05.hpsk.com7、分發(fā)文件
xsync參考CHD大數(shù)據(jù)平臺搭建之xsync分發(fā)腳本
xsync hadoop-2.6.0-cdh5.7.68、配置環(huán)境變量
1、編輯配置文件
sudo vi /etc/profile2、添加內(nèi)容
# HADOOP_HOME export HADOOP_HOME=/opt/modules/hadoop-2.6.0-cdh5.7.6 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin四、啟動集群
1.啟動ZOOKEEPER集群
在193、194、195三臺機器啟動ZK zkServer.sh start2.啟動JournalNode
5臺機器上面都執(zhí)行 sbin/hadoop-daemon.sh start journalnode3.格式化namenode
191上面格式化namenode bin/hdfs namenode -format4.格式化zkfc
191上面格式化zkfc bin/hdfs zkfc -formatZK5.啟動zkfc
在191和193上啟動zkfc sbin/hadoop-daemon.sh start zkfc6.啟動namenode
在191上啟動namenode sbin/hadoop-daemon.sh start namenode7.格式化secondarynamenode
在193上格式化namenode bin/hdfs namenode -bootstrapStandby8.啟動secondarynamenode
在193上啟動namenode sbin/hadoop-daemon.sh start namenode9.驗證是否成功
1、191和193上的命令行輸入jps命令,有namenode進程 2、網(wǎng)頁端口查看: 10.192.8.191:50070和10.192.8.193:50070 一個是standby和一個active10.啟動datanode
所有機器啟動datanode sbin/hadoop-daemon.sh start datanode11.啟動resourcemanager
192和193上啟動resourcemanager sbin/yarn-daemon.sh start resourcemanager12.啟動nodemanager
所有機器啟動nodemanager sbin/yarn-daemon.sh start nodemanager五、各個機器命令進程
1、10.192.8.191進程如下:
2、10.192.8.192進程如下:
3、10.192.8.193進程如下:
4、10.192.8.194進程如下:
5、10.192.8.195進程如下:
六、網(wǎng)頁端口效果
1、namenode
1、10.192.8.191網(wǎng)頁
2、10.192.8.193網(wǎng)頁
resourcemanager
1、10.192.8.192
2、10.192.8.193
七、高可用測試
命令行kill -9 active狀態(tài)的NN或者RN 查看另一個NN或者RN是否變成active總結(jié)
到此hadoop集群也就搭建完成了,覺得寫得可以的小伙伴可以點個贊,網(wǎng)盤大數(shù)據(jù)所需軟件,需要的找前面鏈接下載哦。
總結(jié)
以上是生活随笔為你收集整理的CDH大数据平台搭建之HADOOP分布式集群搭建的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。