hadoop伪分布式配置
1.1 準備
通過gedit編輯器修改比較方便,因此需先安裝gedit。
1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注釋部分需要刪除)
- gedit打開core-site.xml
- gedit打開hdfs-site.xml
設置完后保存。
1.3 配置完成后,執行NameNode的格式化
$ cd /usr/local/hadoop $ ./bin/hdfs namenode -format輸出如下信息則成功。
1.4 開啟NameNode和DataNode守護進程。
$ cd /usr/local/hadoop $ ./sbin/start-dfs.sh1.5 通過jps來判斷是否成功啟動,出現NameNode、DataNode、SecondaryName(若沒有這個,則再次嘗試啟動)則成功。
1.6 單機模式讀取的是本地數據,偽分布式讀取的是HDFS上的數據。要使用HDFS,則需要在HDFS中創建用戶目錄。
$ ./bin/hdfs dfs -mkdir -p /user/hadoop1.7 三種shell命令方式介紹
- hadoop fs:適用于任何不同的文件系統,如本地文件系統和HDFS文件系統。
- hadoop dfs:只適用于HDFS文件系統。
- hdfs dfs:只適用于HDFS文件系統。
1.8 使用
- 將./etc/hadoop中的.xml文件作為輸入,復制到分布式文件系統中的/user/hadoop/input中。
- 執行如下命令創建文件夾和復制文件
- 查看復制的文件目錄
1.9 偽分布式運行MapReduce作業與單機模式相同,偽分布式讀取的HDFS中的文件。
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'1.10 查看輸出文件,每次運行上述輸出語句,需要刪除output輸出文件夾。
$ ./bin/hdfs dfs -cat output/*
1.11 hadoop的關閉與啟動:下次啟動無需運行NameNode初始化。
1.12 hadoop命令目錄:
- hadoop所在目錄為/usr/local/hadoop
- hadoop命令在sbin文件夾中。
- HDFS文件數據目錄:/tmp/dfs/
- input 輸入文件目錄
1.1.3 hadoop的訪問:hadoop3.x版本的默認端口問9870,即通過localhost:9870可以訪問啟動的hadoop。
1.14 可能的錯誤
-
若1.3 運行后出錯Error: JAVA_HOME is not set and could not be found. 那么請保證JAVA_HOME配置正確。若還出錯,則:
轉到hadoop的安裝目錄,修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”中的“export JAVA_HOME=${JAVA_HOME}”為Java安裝路徑的具體地址,如“export JAVA_HOME=/usr/lib/jvm/default-java”。 -
啟動hadoop識,若出現類似“ssh: Could not resolve hostname xxx”的錯誤。
這不是SSH的問題,可以通過Hadoop配置來解決。
先ctrl+c中斷啟動,然后在~./bashrc中添加如下語句
export HADOOP_HOME=/usr/local/hadoop#hadoop的安裝目錄 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 保存執行命令使配置生效。 source ~/.bashrc 在執行啟動命令。 $ ./sbin/start-dfs.sh-
Hadoop 運行程序時,輸出目錄不能存在,否則會提示錯誤 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,需要刪除output文件夾。
-
可以通過命令設置,可以運行是自動刪除output目錄,避免復雜的其他操作。
源文檔
http://dblab.xmu.edu.cn/blog/2441-2/#more-2441
總結
以上是生活随笔為你收集整理的hadoop伪分布式配置的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: leetcode解题记录(二)
- 下一篇: Hadoop相关技术