當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop伪分布式配置

發布時間：2024/7/19 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop伪分布式配置小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.1 準備
通過gedit編輯器修改比較方便，因此需先安裝gedit。

sudo apt-get install gedit

1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注釋部分需要刪除)

gedit打開core-site.xml

$ gedit ./etc/hadoop/core-site.xml <configuration>#在該語句對中添加如下語句，單機模式刪除該語句對中的所有語句。<property><name>hadoop.tmp.dir</name> #用于存儲hadoop運行過程中的臨時文件的目錄<value>file:/usr/local/hadoop/tmp</value>#指定目為/usr/local/hadoop/tmp,若不設置，Hadoop關閉后，系統默認設置的目錄會被情況，下次在開啟hadoop時，又需要運行hadoop format初始化，才能正常使用。<description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name> #設置fs.dfaultFS對應的值<value>hdfs://localhost:9000</value>#設置整個hdfs路徑的邏輯名稱為hdfs://localhost:9000</property> </configuration>

gedit打開hdfs-site.xml

$ gedit ./etc/hadoop/hdfs-site.xml <configuration>#在該語句對中添加如下語句，單機模式刪除該語句對中的所有語句。<property><name>dfs.replication</name>#表示副本的數量<value>1</value> #偽分布式其實只有一臺機器，可以設置副本數量為1</property><property><name>dfs.namenode.name.dir</name>#表示本地磁盤目錄，是存儲fsimage文件的地方<value>file:/usr/local/hadoop/tmp/dfs/name</value>#設置其值</property><property><name>dfs.datanode.data.dir</name>#表示本地磁盤目錄，HDFS數據存放block的地方<value>file:/usr/local/hadoop/tmp/dfs/data</value>#設置其對應的值</property> </configuration>

設置完后保存。

1.3 配置完成后，執行NameNode的格式化

$ cd /usr/local/hadoop $ ./bin/hdfs namenode -format

輸出如下信息則成功。

1.4 開啟NameNode和DataNode守護進程。

$ cd /usr/local/hadoop $ ./sbin/start-dfs.sh

1.5 通過jps來判斷是否成功啟動，出現NameNode、DataNode、SecondaryName(若沒有這個，則再次嘗試啟動)則成功。

1.6 單機模式讀取的是本地數據，偽分布式讀取的是HDFS上的數據。要使用HDFS，則需要在HDFS中創建用戶目錄。

$ ./bin/hdfs dfs -mkdir -p /user/hadoop

1.7 三種shell命令方式介紹

hadoop fs:適用于任何不同的文件系統，如本地文件系統和HDFS文件系統。
hadoop dfs：只適用于HDFS文件系統。
hdfs dfs：只適用于HDFS文件系統。

1.8 使用

將./etc/hadoop中的.xml文件作為輸入，復制到分布式文件系統中的/user/hadoop/input中。
執行如下命令創建文件夾和復制文件

$ ./bin/hdfs dfs -mkdir input $ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input

$ ./bin/hdfs dfs -ls input

1.9 偽分布式運行MapReduce作業與單機模式相同，偽分布式讀取的HDFS中的文件。

$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

1.10 查看輸出文件,每次運行上述輸出語句，需要刪除output輸出文件夾。

$ ./bin/hdfs dfs -cat output/*

1.11 hadoop的關閉與啟動:下次啟動無需運行NameNode初始化。

$ ./sbin/stop-dfs.sh $ ./sbin/start-dfs.sh

1.12 hadoop命令目錄：

hadoop所在目錄為/usr/local/hadoop
hadoop命令在sbin文件夾中。
HDFS文件數據目錄：/tmp/dfs/
input 輸入文件目錄

1.1.3 hadoop的訪問：hadoop3.x版本的默認端口問9870，即通過localhost:9870可以訪問啟動的hadoop。

1.14 可能的錯誤

若1.3 運行后出錯Error: JAVA_HOME is not set and could not be found. 那么請保證JAVA_HOME配置正確。若還出錯，則：
轉到hadoop的安裝目錄，修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”中的“export JAVA_HOME=${JAVA_HOME}”為Java安裝路徑的具體地址，如“export JAVA_HOME=/usr/lib/jvm/default-java”。
啟動hadoop識，若出現類似“ssh: Could not resolve hostname xxx”的錯誤。
這不是SSH的問題，可以通過Hadoop配置來解決。

先ctrl+c中斷啟動，然后在~./bashrc中添加如下語句

export HADOOP_HOME=/usr/local/hadoop#hadoop的安裝目錄 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 保存執行命令使配置生效。 source ~/.bashrc 在執行啟動命令。 $ ./sbin/start-dfs.sh

Hadoop 運行程序時，輸出目錄不能存在，否則會提示錯誤 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ，需要刪除output文件夾。
可以通過命令設置，可以運行是自動刪除output目錄，避免復雜的其他操作。

Configuration conf = new Configuration(); Job job = new Job(conf);/* 刪除輸出目錄 */ Path outputPath = new Path(args[1]); outputPath.getFileSystem(conf).delete(outputPath, true);

源文檔
http://dblab.xmu.edu.cn/blog/2441-2/#more-2441

總結

以上是生活随笔為你收集整理的hadoop伪分布式配置的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。