當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop搭建流程

1.注：本文只是hadoop搭建大概流程，供參考和復習使用，可以用來檢驗自己的步驟某些具體操作可以自行上網搜索

2.前置操作：先安裝好第一臺虛擬機，最好分配50G一臺，方便后續學習使用，這個50G是虛擬機的內存上限，實際使用不會占到那么多，首先配置第一臺虛擬機的IP，主機名稱（參考:192.168.10.102,hadoop102）

3.使用工具 Finalshell，VMwareWorkstation Pro

第一步：安裝jdk

1.刪除自帶java，裝入自己的java
2.裝入hadoop在/opt/module中，
3./opt/module用來存軟件，/opt/software存壓縮包
4.配置環境變量

第二步：克隆虛擬機

第一臺作為版機，克隆三臺虛擬機

記得克隆的虛擬機也需要更改ip和hostname

第三步：虛擬機連接界面

連接finalshell(虛擬機連接界面)

第四步：配置分發腳本

配置xsync分發腳本,用戶目錄下創建一個bin目錄，寫一個xsync在里面,內容如下
使用方式，xsync 文件名(路徑)

#!/bin/bash #1 獲取輸入參數個數，如果沒有參數，直接退出 pcount=$# if [ $pcount -lt 1 ] then echo Not Enough Arguement! exit; fi#2. 遍歷集群所有機器 # 也可以采用： # for host in hadoop{102..104}; for host in hadoop102 hadoop103 hadoop104 do echo ==================== $host ==================== #3. 遍歷所有目錄，挨個發送 for file in $@ do#4 判斷文件是否存在if [ -e $file ]then#5. 獲取父目錄pdir=$(cd -P $(dirname $file); pwd)echo pdir=$pdir#6. 獲取當前文件的名稱fname=$(basename $file)echo fname=$fname#7. 通過ssh執行命令：在$host主機上遞歸創建文件夾（如果存在該文件夾）ssh $host "mkdir -p $pdir"#8. 遠程同步文件至$host主機的$USER用戶的$pdir文件夾下rsync -av $pdir/$fname $USER@$host:$pdirelseecho $file does not exists!fidone done

第五步:配置各個主機、賬戶免密登錄

1.使用ssh-keygen -t rsa生成公鑰私鑰
2.使用ssh-copy-id hadoop102(主機名)拷貝公鑰

第六步：集群配置信息

在opt/modle/hadoop3.3.2/etc/hadoop下
1.配置核心配置文件core-site.xml

<configuration> <property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value> </property> <property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.3.2/data</value> </property> </configuration>

2.配置HDFS配置文件hdfs-site.xml

<configuration> <property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value></property> <property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property> </configuration>

3.配置MapReduce-site.xml

<configuration> <property><name>mapreduce.framework.name</name><value>yarn</value> </property></configuration>

4.配置yarn-site.xml

<configuration>   <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>  <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop103</value> </property> </configuration>

第七步：分發配置

1.在路徑/opt/module/hadoop3.3.2/etc下
2.使用編寫好的腳本xsync分發剛才修改配置的目錄給其他虛擬機

第八步：配置works

1.配置works

vim /opt/module/hadoop-3.3.2/etc/hadoop/workers

添加:

hadoop102hadoop103hadoop104

本結尾不能有空格，文件不能有空行

2.使用xsync分發同步配置

第九步：初始化

1.啟動hadoop集群sbin/start-dfs.sh,再在hadoop103上啟動yarn-dfs.sh
2.在/opt/module/hadoop-3.3.2中先進行初始化,執行hdfs namenode -format初始化

第十步：添加windows的hosts映射

配置windows的hosts映射，給當前window用戶修改host文件的權限，然后添加

192.168.10.102 hadoop102 192.168.10.103 hadoop103 192.168.10.104 hadoop104

第十一步：訪問

1.通過瀏覽器訪問hadoop102:9870和hadoop103:8088
2.添加yarn配置hadoop classpath

第十二步：歷史服務器

1.配置歷史服務器
2.重啟yarn
3.啟動歷史服務器mapred --daemon start historyserver

第十三步：hdfs相關操作

注意：hadoop集群剛啟動的時候會處于安全模式
手動退出安全模式hadoop dfsadmin -safemode leave

測試

使用hadoop fs -(指令)，對HDFS進行操作

hadoop fs -mkdir /input hadoop fs -put wcinput/word.txt /input hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.2.jar wordcount /input /output

第十四步：日志聚集

1.在core-site.xml配置日志聚集到HDFS

</property>  <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>  <property><name>yarn.log.server.url</name><value>http://hadoop102:19888/jobhistory/logs</value> </property>  <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> </configuration>

2.重啟yarn和歷史服務器，停止命令mapred --daemon stop historyserver

第十五步：hadoop集群啟停腳本

編寫hadoop常用集群腳本，寫在家目錄的bin目錄下面（建議文件名后面加上.sh），寫完后記得要賦予執行權限
1.hadoop集群啟停腳本
#!/bin/bash

if [ $# -lt 1 ] then echo "No Args Input..." exit ; ficase $1 in "start")echo " =================== 啟動 hadoop集群 ==================="echo " --------------- 啟動 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.2/sbin/start-dfs.sh"echo " --------------- 啟動 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.3.2/sbin/start-yarn.sh"echo " --------------- 啟動 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.2/bin/mapred --daemon start historyserver" ;; "stop")echo " =================== 關閉 hadoop集群 ==================="echo " --------------- 關閉 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.2/bin/mapred --daemon stop historyserver"echo " --------------- 關閉 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.3.2/sbin/stop-yarn.sh"echo " --------------- 關閉 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.3.2/sbin/stop-dfs.sh" ;; *) echo "Input Args Error..." ;; esac

2.在用戶家目錄的bin目錄下，創建jpsall文件，配置查看所有虛擬機上的jps

#!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo =============== $host =============== ssh $host jps done

第十六步：配置時間服務器(選配)

可以配置時間服務器，方便不能連接外網的生產環境同步時間

第十七步：讓用戶可以在HDFS頁面上進行操作

需要在在core-site.xml中添加

<property> <name>hadoop.http.staticuser.user</name> <value>log</value> </property> </configuration>

到此hadoop搭建完成!

個人遇到的其中一個問題，namenode關不掉：此時需要配置pid！

總結

以上是生活随笔為你收集整理的最新Hadoop环境搭建流程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。