最新Hadoop环境搭建流程
文章目錄
- Hadoop搭建流程
- 第一步:安裝jdk
- 第二步:克隆虛擬機
- 第三步:虛擬機連接界面
- 第四步:配置分發腳本
- 第五步:配置各個主機、賬戶免密登錄
- 第六步:集群配置信息
- 第七步:分發配置
- 第八步:配置works
- 1.配置works
- 2.使用`xsync`分發同步配置
- 第九步:初始化
- 第十步:添加windows的hosts映射
- 第十一步:訪問
- 第十二步:歷史服務器
- 第十三步:hdfs相關操作
- 測試
- 第十四步:日志聚集
- 第十五步:hadoop集群啟停腳本
- 第十六步:配置時間服務器(選配)
- 第十七步:讓用戶可以在HDFS頁面上進行操作
- 到此hadoop搭建完成!
Hadoop搭建流程
1.注:本文只是hadoop搭建大概流程,供參考和復習使用,可以用來檢驗自己的步驟某些具體操作可以自行上網搜索
2.前置操作:先安裝好第一臺虛擬機,最好分配50G一臺,方便后續學習使用,這個50G是虛擬機的內存上限,實際使用不會占到那么多,首先配置第一臺虛擬機的IP,主機名稱(參考:192.168.10.102,hadoop102)
3.使用工具 Finalshell,VMwareWorkstation Pro
第一步:安裝jdk
1.刪除自帶java,裝入自己的java
2.裝入hadoop在/opt/module中,
3./opt/module用來存軟件,/opt/software存壓縮包
4.配置環境變量
第二步:克隆虛擬機
第三步:虛擬機連接界面
連接finalshell(虛擬機連接界面)
第四步:配置分發腳本
配置xsync分發腳本,用戶目錄下創建一個bin目錄,寫一個xsync在里面,內容如下
使用方式,xsync 文件名(路徑)
第五步:配置各個主機、賬戶免密登錄
1.使用ssh-keygen -t rsa生成公鑰私鑰
2.使用ssh-copy-id hadoop102(主機名)拷貝公鑰
第六步:集群配置信息
在opt/modle/hadoop3.3.2/etc/hadoop下
1.配置核心配置文件core-site.xml
2.配置HDFS配置文件hdfs-site.xml
<configuration> <!--nn web端訪問地址--><property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value></property> <!--2nn web端訪問地址--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property> </configuration>3.配置MapReduce-site.xml
<configuration><!--指定MapReduce運行在Yarn上--> <property><name>mapreduce.framework.name</name><value>yarn</value> </property></configuration>4.配置yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <!--指定MR走shuffle--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定ResourceManager地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop103</value> </property> </configuration>第七步:分發配置
1.在路徑/opt/module/hadoop3.3.2/etc下
2.使用編寫好的腳本xsync分發剛才修改配置的目錄給其他虛擬機
第八步:配置works
1.配置works
vim /opt/module/hadoop-3.3.2/etc/hadoop/workers
添加:
hadoop102hadoop103hadoop104本結尾不能有空格,文件不能有空行
2.使用xsync分發同步配置
第九步:初始化
1.啟動hadoop集群sbin/start-dfs.sh,再在hadoop103上啟動yarn-dfs.sh
2.在/opt/module/hadoop-3.3.2中先進行初始化,執行hdfs namenode -format初始化
第十步:添加windows的hosts映射
配置windows的hosts映射,給當前window用戶修改host文件的權限,然后添加
192.168.10.102 hadoop102 192.168.10.103 hadoop103 192.168.10.104 hadoop104第十一步:訪問
1.通過瀏覽器訪問hadoop102:9870和hadoop103:8088
2.添加yarn配置hadoop classpath
第十二步:歷史服務器
1.配置歷史服務器
2.重啟yarn
3.啟動歷史服務器mapred --daemon start historyserver
第十三步:hdfs相關操作
注意:hadoop集群剛啟動的時候會處于安全模式
手動退出安全模式hadoop dfsadmin -safemode leave
測試
使用hadoop fs -(指令),對HDFS進行操作
hadoop fs -mkdir /input hadoop fs -put wcinput/word.txt /input hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.2.jar wordcount /input /output第十四步:日志聚集
1.在core-site.xml配置日志聚集到HDFS
</property> <!--日志聚集功能使能--> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!--設置日志聚集服務器地址--> <property><name>yarn.log.server.url</name><value>http://hadoop102:19888/jobhistory/logs</value> </property> <!--日志保留時間設置7天--> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> </configuration>2.重啟yarn和歷史服務器,停止命令mapred --daemon stop historyserver
第十五步:hadoop集群啟停腳本
編寫hadoop常用集群腳本,寫在家目錄的bin目錄下面(建議文件名后面加上.sh),寫完后記得要賦予執行權限
1.hadoop集群啟停腳本
#!/bin/bash
2.在用戶家目錄的bin目錄下,創建jpsall文件,配置查看所有虛擬機上的jps
#!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo =============== $host =============== ssh $host jps done第十六步:配置時間服務器(選配)
可以配置時間服務器,方便不能連接外網的生產環境同步時間
第十七步:讓用戶可以在HDFS頁面上進行操作
需要在在core-site.xml中添加
<!--配置HDFS網頁登錄使用的靜態用戶為log--> <property> <name>hadoop.http.staticuser.user</name> <value>log</value> </property> </configuration>到此hadoop搭建完成!
個人遇到的其中一個問題,namenode關不掉:此時需要配置pid!
總結
以上是生活随笔為你收集整理的最新Hadoop环境搭建流程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux一定需要文件系统吗?
- 下一篇: 小心内存对齐