Windows下配置单机Hadoop环境
Windows下配置單機Hadoop環境
文章目錄
- Windows下配置單機Hadoop環境
- 下載Hadoop
- 下載配置文件
- 配置環境變量
- 初始化HDFS
- 啟動Hadoop
- 關閉Hadoop
- 常見錯誤
- 參考博客
下載Hadoop
首先,請確保電腦上已經安裝了 JDK并配置了環境變量。因為 Hadoop的底層實現語言是 Java,必須在 Java 環境下 Hadoop 才能正常運行。(注意,一定要使用 64位 的 java 版本)
接著,我們去 Hadoop 官網下載一個 Hadoop 的穩定版本,然而考慮到官網是外網,下載可能需要兩三個小時,實在是太過緩慢。
這里我們推薦使用北理工的鏡像站來下載 Hadoop 的穩定版本 Hadoop北理工鏡像
鏡像站提供了幾個穩定版本,這里我們選擇的是 hadoop-2.7.7,點擊進入目錄
我們選擇 hadoop-2.7.7.tar.gz ,因為 Hadoop 的安裝包Windows 和 Linux是一樣的,所以后綴是 tar.gz。
“開始”里面找到 WinRAR,右擊->“更多”->“以管理員權限運行”
找到剛才下載的 Hadoop壓縮包,解壓到自己想要的安裝位置,比如我的安裝位置是“D:\Dpan\hadoop”。
請一定要使用管理員身份解壓,不然可能解壓出的文件少那么一兩個,錯誤了你都找不到原因。
下載配置文件
下載關于 Hadoop 的 Windows 配置文件,這里給出百度云鏈接
鏈接:https://pan.baidu.com/s/1NAfsFsPz561Gp6FMo2YOMg
提取碼:ewry
下載完配置文件之后,解壓出來。將 bin 和 etc 文件夾替換掉剛解壓的官方下載包中的 bin 和 etc 文件夾。注意是替換,直接拷貝過來選擇全部替換!
打開剛才解壓的 hadoop-2.7.7 文件夾,找到文件夾下的 \etc\hadoop 目錄,使用編輯器對配置文件 hadoop-env.cmd 進行修改。在代碼的第26行,把路徑修改為你自己電腦上的JAVA_HOME路徑。(如果忘記了JAVA_HOME,可以去環境變量里查看)
這里注意,如果路徑中帶空格的文件夾需要用軟鏈進行替代,否則 Hadoop 也是運行不起來的。 比如“Program Files”,要用“PROGRA~1”替代。
set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_171
接著,使用編輯器修改同級目錄下的 hdfs-site.xml 文件,將最后兩個 property 的 value 值修改為“/項目目錄/data/namenode”和“/項目目錄/data/datanode”這里要使用絕對路徑
然后,在 hadoop-2.7.7 文件夾下,新建“tmp”文件夾和“data”文件夾;
在“data”文件夾下再新建兩個文件夾“namenode”、“datanode”。
最后,將 bin 目錄下的 hadoop.dll 文件拷貝到 C:\Windows\System32
配置環境變量
Hadoop 環境變量的配置和 JDK的配置方法是一樣的。
在系統變量欄點擊“新建”
新建 HADOOP_HOME 環境變量,位置就是剛才 Hadoop 包解壓的位置
注意這里環境變量的地址中間不能有空格,不然也會報錯。
在系統變量中找到“path”變量,點擊編輯,“新建”,填入“%HADOOP_HOME%\bin”,環境變量就配置完畢了。
接下來,我們來檢查一下。打開 cmd ,輸入“hadoop”,如果有提示信息證明 hadoop 環境變量配置成功。
初始化HDFS
在 Windows 系統工具中找到命令提示符,以管理員身份打開。
輸入命令
hdfs namenode -format
在彈出信息的接近末尾處,看到 successfully 信息,就證明 HDFS 初始化成功。
啟動Hadoop
啟動 Hadoop 不要求管理員權限,直接打開 cmd 就可以。
打開 cmd 之后,把路徑轉到 Hadoop 安裝目錄的 sbin 文件夾下。強調一下,是 sbin 目錄,不是 bin。
輸入命令,啟動 Hadoop 集群。注意這個命令時連續的,中間沒有空格。
start-all
出現了四個命令行窗口,分別是
證明 Hadoop 啟動成功。
在剛才我們自己打開的 cmd 窗口中輸入命令,可以查看運行的所有節點
jps
打開瀏覽器,輸入地址“http://localhost:50070”,可以訪問 Hadoop 的 web 頁面。
輸入地址“http://localhost:8088”,可以訪問 yarn 的web界面,表明已經成功
輸入地址“http://hostname:8088/logs/”,可以查看hadoop集群運行日志的地址。
下次啟動 hadoop 的時候就不需要初始化 HDFS 了,直接啟動即可。
關閉Hadoop
在剛才我們自己打開的 cmd 窗口中輸入命令
stop-all
就可以停止運行所有節點了
常見錯誤
安裝完Hadoop之后,命令行輸入hadoop卻找不到命令
解決方法是先查看你的 hadoop 環境變量和 path ,如果沒有配置請抓緊配置。如果都配置好了,那就是 source 暫時沒有加載出來。關閉此命令行,重新打開即可。
如果啟動的四個窗口中缺少 datanode 窗口,是因為HDFS被多次初始化,而導致 namenode 的 clusterID 與 datanode 的 clusterID 不一致。
解決方法有兩種:
參考博客
Windows下配置Hadoop環境(全過程)
Hadoop HA 集群啟動發現現datanode沒有啟動
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的Windows下配置单机Hadoop环境的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IDEA+Maven运行调试MapRed
- 下一篇: Windows下的cmd小技巧