2、运行WordCount程序
轉載:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html
單詞計數是最簡單也是最能體現MapReduce思想的程序之一,可以稱為MapReduce版"Hello World",該程序的完整代碼可以在Hadoop安裝包的"src/examples"目錄下找到。單詞計數主要完成功能是:統計一系列文本文件中每個單詞出現的次數,如下圖所示。
?
?
?
2.1 準備工作
現在以"hadoop"普通用戶登錄"Master.Hadoop"服務器。
1)創建本地示例文件
首先在"/home/hadoop"目錄下創建文件夾"file"。
?
?
?
接著創建兩個文本文件file1.txt和file2.txt,使file1.txt內容為"Hello World",而file2.txt的內容為"Hello Hadoop"。
?
?
2)在HDFS上創建輸入文件夾
?
?
3)上傳本地file中文件到集群的input目錄下
?
?
2.2 運行例子
1)在集群上運行WordCount程序
備注:以input作為輸入目錄,output目錄作為輸出目錄。
已經編譯好的WordCount的Jar在"/usr/hadoop"下面,就是"hadoop-examples-1.0.0.jar",所以在下面執行命令時記得把路徑寫全了,不然會提示找不到該Jar包。
?
?
?
2)MapReduce執行過程顯示信息
?
?
Hadoop命令會啟動一個JVM來運行這個MapReduce程序,并自動獲得Hadoop的配置,同時把類的路徑(及其依賴關系)加入到Hadoop的庫中。以上就是Hadoop Job的運行記錄,從這里可以看到,這個Job被賦予了一個ID號:job_201202292213_0002,而且得知輸入文件有兩個(Total input paths to process : 2),同時還可以了解map的輸入輸出記錄(record數及字節數),以及reduce輸入輸出記錄。比如說,在本例中,map的task數量是2個,reduce的task數量是一個。map的輸入record數是2個,輸出record數是4個等信息。
?
2.3 查看結果
1)查看HDFS上output目錄內容
?
?
從上圖中知道生成了三個文件,我們的結果在"part-r-00000"中。
2)查看結果輸出文件內容
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的2、运行WordCount程序的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RTSP再学习 -- 利用FFmpeg
- 下一篇: 为什么选择springcloud微服务架