日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop伪分布式配置

發布時間:2024/7/19 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hadoop伪分布式配置 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.1 準備
通過gedit編輯器修改比較方便,因此需先安裝gedit。

sudo apt-get install gedit

1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注釋部分需要刪除)

  • gedit打開core-site.xml
$ gedit ./etc/hadoop/core-site.xml <configuration>#在該語句對中添加如下語句,單機模式刪除該語句對中的所有語句。<property><name>hadoop.tmp.dir</name> #用于存儲hadoop運行過程中的臨時文件的目錄<value>file:/usr/local/hadoop/tmp</value>#指定目為/usr/local/hadoop/tmp,若不設置,Hadoop關閉后,系統默認設置的目錄會被情況,下次在開啟hadoop時,又需要運行hadoop format初始化,才能正常使用。<description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name> #設置fs.dfaultFS對應的值<value>hdfs://localhost:9000</value>#設置整個hdfs路徑的邏輯名稱為hdfs://localhost:9000</property> </configuration>
  • gedit打開hdfs-site.xml
$ gedit ./etc/hadoop/hdfs-site.xml <configuration>#在該語句對中添加如下語句,單機模式刪除該語句對中的所有語句。<property><name>dfs.replication</name>#表示副本的數量<value>1</value> #偽分布式其實只有一臺機器,可以設置副本數量為1</property><property><name>dfs.namenode.name.dir</name>#表示本地磁盤目錄,是存儲fsimage文件的地方<value>file:/usr/local/hadoop/tmp/dfs/name</value>#設置其值</property><property><name>dfs.datanode.data.dir</name>#表示本地磁盤目錄,HDFS數據存放block的地方<value>file:/usr/local/hadoop/tmp/dfs/data</value>#設置其對應的值</property> </configuration>

設置完后保存。

1.3 配置完成后,執行NameNode的格式化

$ cd /usr/local/hadoop $ ./bin/hdfs namenode -format

輸出如下信息則成功。

1.4 開啟NameNode和DataNode守護進程。

$ cd /usr/local/hadoop $ ./sbin/start-dfs.sh

1.5 通過jps來判斷是否成功啟動,出現NameNode、DataNode、SecondaryName(若沒有這個,則再次嘗試啟動)則成功。

1.6 單機模式讀取的是本地數據,偽分布式讀取的是HDFS上的數據。要使用HDFS,則需要在HDFS中創建用戶目錄。

$ ./bin/hdfs dfs -mkdir -p /user/hadoop

1.7 三種shell命令方式介紹

  • hadoop fs:適用于任何不同的文件系統,如本地文件系統和HDFS文件系統。
  • hadoop dfs:只適用于HDFS文件系統。
  • hdfs dfs:只適用于HDFS文件系統。

1.8 使用

  • 將./etc/hadoop中的.xml文件作為輸入,復制到分布式文件系統中的/user/hadoop/input中。
  • 執行如下命令創建文件夾和復制文件
$ ./bin/hdfs dfs -mkdir input $ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
  • 查看復制的文件目錄
$ ./bin/hdfs dfs -ls input

1.9 偽分布式運行MapReduce作業與單機模式相同,偽分布式讀取的HDFS中的文件。

$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

1.10 查看輸出文件,每次運行上述輸出語句,需要刪除output輸出文件夾。

$ ./bin/hdfs dfs -cat output/*


1.11 hadoop的關閉與啟動:下次啟動無需運行NameNode初始化。

$ ./sbin/stop-dfs.sh $ ./sbin/start-dfs.sh

1.12 hadoop命令目錄:

  • hadoop所在目錄為/usr/local/hadoop
  • hadoop命令在sbin文件夾中。
  • HDFS文件數據目錄:/tmp/dfs/
  • input 輸入文件目錄

1.1.3 hadoop的訪問:hadoop3.x版本的默認端口問9870,即通過localhost:9870可以訪問啟動的hadoop。

1.14 可能的錯誤

  • 若1.3 運行后出錯Error: JAVA_HOME is not set and could not be found. 那么請保證JAVA_HOME配置正確。若還出錯,則:
    轉到hadoop的安裝目錄,修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”中的“export JAVA_HOME=${JAVA_HOME}”為Java安裝路徑的具體地址,如“export JAVA_HOME=/usr/lib/jvm/default-java”。

  • 啟動hadoop識,若出現類似“ssh: Could not resolve hostname xxx”的錯誤。
    這不是SSH的問題,可以通過Hadoop配置來解決。

先ctrl+c中斷啟動,然后在~./bashrc中添加如下語句

export HADOOP_HOME=/usr/local/hadoop#hadoop的安裝目錄 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 保存執行命令使配置生效。 source ~/.bashrc 在執行啟動命令。 $ ./sbin/start-dfs.sh
  • Hadoop 運行程序時,輸出目錄不能存在,否則會提示錯誤 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,需要刪除output文件夾。

  • 可以通過命令設置,可以運行是自動刪除output目錄,避免復雜的其他操作。

Configuration conf = new Configuration(); Job job = new Job(conf);/* 刪除輸出目錄 */ Path outputPath = new Path(args[1]); outputPath.getFileSystem(conf).delete(outputPath, true);

源文檔
http://dblab.xmu.edu.cn/blog/2441-2/#more-2441

總結

以上是生活随笔為你收集整理的hadoop伪分布式配置的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。