日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > Ubuntu >内容正文

Ubuntu

在Ubuntu11.10下构建hadoop实验环境笔记

發布時間:2025/3/18 Ubuntu 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 在Ubuntu11.10下构建hadoop实验环境笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1,安裝虛擬機virtual box,添加虛擬機hdp1.vdi(網絡1:nat或bridge, 網絡2:internal),安裝ubuntu 11.10,添加用戶hadoop作為運行hadoop之用戶,并在安裝好后設置root用戶密碼。

2,在虛擬機中安裝“增強功能”,重啟后右上角系統菜單“System Settings..."->"Language Support"? 中 "Install / Remove Language..."安裝簡體中文支持, "Keyboard input method system"選ibus. (注:系統panel上的輸入法圖標經常會消失,可以通過命令: killall ibus-daemon; ibus-daemon -d 重啟ibus顯示)

3,更改apt源:

$ sudo cp /etc/sources.list /etc/sources.list.bak

$ sudo gedit /etc/sources.list

內容如下:
deb http://ubuntu.cn99.com/ubuntu/ oneiric main restricted universe multiverse
deb http://ubuntu.cn99.com/ubuntu/ oneiric-updates main restricted universe multiverse
deb http://ubuntu.cn99.com/ubuntu/ oneiric-security main restricted universe multiverse
deb http://ubuntu.cn99.com/ubuntu/ oneiric-backports main restricted universe multiverse
deb http://ubuntu.cn99.com/ubuntu-cn/ oneiric main restricted universe multiversedeb

deb http://mirrors.163.com/ubuntu/ oneiric main universe restricted multiverse
deb-src http://mirrors.163.com/ubuntu/ oneiric main universe restricted multiverse
deb http://mirrors.163.com/ubuntu/ oneiric-security universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ oneiric-security universe main multiverse restricted
deb http://mirrors.163.com/ubuntu/ oneiric-updates universe main multiverse restricted
deb http://mirrors.163.com/ubuntu/ oneiric-proposed universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ oneiric-proposed universe main multiverse restricted
deb http://mirrors.163.com/ubuntu/ oneiric-backports universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ oneiric-backports universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ oneiric-updates universe main multiverse restricted

#deb http://tw.archive.ubuntu.com/ubuntu/ oneiric main universe restricted multiverse
#deb-src http://tw.archive.ubuntu.com/ubuntu/ oneiric main universe restricted multiverse
#deb http://tw.archive.ubuntu.com/ubuntu/ oneiric-security universe main multiverse restricted
#deb-src http://tw.archive.ubuntu.com/ubuntu/ oneiric-security universe main multiverse restricted
#deb http://tw.archive.ubuntu.com/ubuntu/ oneiric-updates universe main multiverse restricted
#deb-src http://tw.archive.ubuntu.com/ubuntu/ oneiric-updates universe main multiverse restricted

4,$ sudo apt-get update

5,$ sudo apt-get install vim-gtk, axel, mutliget?? (注:下載工具)

6,$ sudo apt-get install chkconfig sysv-rc-conf? (注:管理系統服務用)

7,$ sudo apt-get install openjdk-7-jdk rsync openssh-server openssh-client (注:hadoop需用的工具)

這一步可順便配置好java的環境變量:

$ sudo vi /etc/profile.d/bash_completion.sh, 在文件末尾添加內容如下:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386/
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib

8,下載hadoop: $ axel http://apache.etoak.com/hadoop/common/hadoop-1.0.1/hadoop_1.0.1-1_i386.deb

9, 安裝hadoop:$ sudo dpkg -i hadoop_1.0.1-1_i386.deb

10,查看hadoop安裝了哪些文件:$ sudo dpkg -L hadoop

11,更改系統網卡2的網絡配置為;靜態ip, 地址-> 192.168.0.1 (注:以后其它系統相應改為192.168.0.2, 192.168.0.3 ......)

12,更改系統配置:

$ sudo vi /etc/hostname 內容為:hdp1 (注:以后其它系統相應改為hdp2, hdp3 ......)

$ sudo vi /etc/hosts 增加內容:

192.168.0.1???? hdp1
192.168.0.2???? hdp2
192.168.0.3???? hdp3
192.168.0.4???? hdp4

注意:應確保hostname和hosts文件設置的主機名一致,否則reduce過程無法完成。

13,產生SSH密鑰,實現無密碼安全聯機:

$ ssh-keygen -t rsa -P ""

$ cd ~/.ssh

$ cp id_ras.pub authorized_keys

$ ssh hdp1 ( 注:本步測試上面各步驟是否正確,正確方能成功)

$ exit

注:以下步驟配置hadoop

14,選定hdp1為Master并作為NameNode和JobTracker

$ sudo vi /etc/hadoop/masters 內容為:hdp1

15,將所有服務器(包括主服務器hdp1)全部添加為slaves次服務器,當作DataNode和TaskTracker

$ sudo vi /etc/hadoop/slaves 內容為:

hdp1

hdp2

hdp3

16,hadoop運行環境變量設置

$ cd /etc/hadoop

$ sudo vi hadoop-env.sh
將export JAVA_HOME=/usr/lib/jvm/java-6-sun注釋掉(前面加#),其后添加一行

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386/

17, 在/etc/hadoop目錄下添加hadoop云計算系統設置文檔-> core-site.xml

$ sudo vi core-site.xml

內容如下:

<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
??? <property>
??????? <name>fs.default.name</name>
??????? <value>hdfs://hdp1:9000</value>
??? </property>
</configuration>

18, 在/etc/hadoop目錄下添加HDFS分布式文檔系統設置文檔-> hdfs-site.xml

賦予hadoop訪問/var/run目錄的權限

$ sudo usermod -a -G root hadoop (注: hadoop加入root組, 也可用gpasswd -a hadoop root命令,均需注銷再登錄后生效)
$ sudo chmod g+w /run /var/run (注: 不要加-R選項, /run/sshd目錄的屬性更改后會導致ssh無法連接, 另本命令需在每次機器重啟后執行一次, 可通過在/etc/init.d/rc.local文件中添加該命令自動進行 )

創建目錄

$ mkdir -p ~/hadoop/dfs/data (注:無須創建~/hadoop/dfs/name,在格式化HDFS文檔系統時會自動創建,否則格式化會失敗)

再創建文檔

$ sudo vi hdfs-site.xml

內容如下:

<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
??? <property>
??????? <name>dfs.name.dir</name>
??????? <value>/home/hadoop/dfs/name</value>
??? </property>
??? <property>
??????? <name>dfs.data.dir</name>
??????? <value>/home/hadoop/dfs/data</value>
??? </property>
??? <property>
??????? <name>dfs.replication</name>
??????? <value>1</value>
??? </property>
</configuration>

19, 在/etc/hadoop目錄下添加Map/Reduce程序設置文檔-> mapred-site.xml

$ sudo vi mapred-site.xml

內容如下:

<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
??? <property>
??????? <name>mapred.job.tracker</name>
??????? <value>hdp1:9001</value>
??? </property>
</configuration>

注:以下各步創建及創建其他主機

20,復制VDI文件創建其他主機

1)關閉hdp1

2)復制hdp1.vdi為hdp2.vdi, hdp3.vdi

3)更改虛擬硬盤之UUID:

> cd "\Program Files\Oracle\VirtualBox"

> VBoxManage internalcommands sethduuid g:\vbox\hdp2.vdi

> VBoxManage internalcommands sethduuid g:\vbox\hdp3.vdi

4)啟動virtualbox創建虛擬主機,分別選擇已存在的硬盤hdp2.vdi和hdp3.vdi,網絡配置應和hdp1一樣。

21,啟動所有虛擬主機,配置hdp2和hdp3的第二塊網卡的靜態IP,配置hostname

注:以下啟動云計算系統

22,格式化hadoop云計算系統

$ hadoop namenode -format (若已存在~/hadoop/dfs/name目錄,該步可能出錯)

$ sudo chown -R hadoop:hadoop /home/hadoop/dfs/name/current/

23,啟動云計算系統

$ start-all.sh

24,使用瀏覽器查看hadoop運行狀況

http://hdp1:50070/?? (NameNode運行狀況,點擊其中的“Live Nodes”可查看各DataNode的運行狀況)

http://hdp1:50030/? (查看JobTracker的運行狀況)

25,關閉云計算系統

$ stop-all.sh

26,使用hadoop官方程序組件(wordcount)測試云計算系統

1)創建目錄并準備文件

$ makedir -p ~/wordcount

$ cd ~/wordcount

$ echo "Hello World Bye World" >> inputfile1

$ echo "Hello Hadoop Bye Hadoop" >> inputfile1

2)指定HDFS分布式文檔格式篩選這兩件文件,做為Map/Reduce工作的輸入文檔 (即把整個目錄中的文件上傳到HDFS的input中)

$ hadoop dfs -put ~/wordcount input
$ hadoop fs -ls input (查看input中的文件)
結果:
Found 2 items
-rw-r--r--?? 1 hadoop supergroup???????? 22 2012-04-05 10:07 /user/hadoop/input/inputfile1
-rw-r--r--?? 1 hadoop supergroup???????? 27 2012-04-05 10:07 /user/hadoop/input/inputfile2


3)使用hadoop-examples-1.0.1.jar內附的wordcount程序計算各輸入文檔中單詞出現的總次數

$ hadoop jar /usr/share/hadoop/hadoop-examples-1.0.1.jar wordcount input output

4)通過命令輸出或http://hdp0:50030可查看當前進度

5)計算完成后,看結果:

$ hadoop dfs -get output output

$ hadoop fs -cat output/part-r-00000

27,排錯:注意看/var/log/hadoop/hadoop/目錄下的各日志文件

1)org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory output already exists
?
這是因為mapreduce的輸出都應該是單獨的輸出文件,不能有重名的情況
需要刪除已有的同名文件
$ hadoop fs -rmr output

2)map進行到100%后,reduce過程進行到某個數值(如16%)后就不再繼續,直到被hadoop強制關閉。

可能原因:

a) 因為 /etc/hosts 中配置的IP 別名和hostname不一致造成的!

經過對job history進行分析,并跟蹤到task失敗的任務的節點,查看syslog,發現原因如下:
<1>.對于運行在A節點上的map任務,運行完畢后,將運行結果提交給jobtracker,并將運行結果保存在節點A上.
<2>.對于運行在B節點上的reduce任務,從jobtracker取得任務信息(假設任務包括對節點A的map的數據).并直接從節點A提取該map的結果.
原因在第二步.當節點B的reduce從jobtracker獲得的任務中,包括map的服務器地址,而這個地址是改服務器的名字,而不是IP地址.因此,當在本地解析該服務器名的時候,無法解析出他的ip地址,導致無法從A節點,提取數據.
slave2? reduce時候需要得到slave1 map的結果, datanode間需要數據copy, slave2找salve1使用的是hostname,而不是/etc/hosts 中配置的slave1,
故:/etc/hostname, /etc/hosts, $HADOOP_HOME/conf/masters, $HADOOP_HOME/conf/slaves, $HADOOP_HOME/conf/core-site.xml, $HADOOP_HOME/conf/mapred-site.xml中的IP別名要和hostname一致。

b) 因為secondary name node所在的機器沒有配置dfs.http.address這個參數,該參數在hadoop-default.xml里的缺省值是0.0.0.0:50070,應改為name node所在機器的ip地址。

3)hadoop 文件夾無法刪除,Name node is in safe mode.
關閉安全模式:$ hadoop dfsadmin -safemode leave?

28, 其他hadoop命令

1) 在hdfs 中建立一個input 目錄
$ hadoop fs –mkdir input

2) 查看目錄中文件列表
$ hadoop fs -ls input

3)將file01 和file02 拷貝到hdfs 中:
$ hadoop fs –copyFromLocal /home/hexianghui/soft/file0* input

4)查看文件內容:
$ hadoop fs -cat output/part-r-00000

5)刪除目錄
$ hadoop fs -rmr output

6)關閉安全模式
$ hadoop dfsadmin -safemode leave?

?

總結

以上是生活随笔為你收集整理的在Ubuntu11.10下构建hadoop实验环境笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。