IDEA+Hadoop运行TriangleCount程序
IDEA+Hadoop運行MapReduce程序
文章目錄
- IDEA+Hadoop運行MapReduce程序
- IDEA新建項目
- 項目配置
- 新建Java類
- 配置編譯器
- 運行程序
- 參考博客
IDEA新建項目
首先,請確保電腦上已經安裝了 Hadoop 并配置了環境變量。如果沒有的話,請參考這篇博客 Windows下配置單機Hadoop環境
首先,打開IDEA,新建一個 Java 項目(不需要從模板創建)
項目名字隨便,我們就起為“CloudCalculate”,點擊 Finish
項目配置
在菜單欄點擊 FileFileFile -> ProjectStructureProject StructureProjectStructure ,這兩處的 SDK 版本要對應才行
點擊左側的 Modules,找到 Sources 配置,這里的 Language level 也要和剛才的 SDK 版本相同才行。
還是在 Modules 下,找到 Dependencies 配置,點擊右側的加號,選擇第一個“JARs or directories”。在彈出的窗口中選擇當初安裝 Hadoop 的路徑,導入以下五個 hadoop 的 jar 包依賴。
如果彈出需要 Choose Roots,點擊OK就行。
在左側找到 Artifacts,點擊中間的加號,選擇 JARJARJAR -> emptyemptyempty。名字隨便起,我們就命名為“TriangleCount”。
點擊下面“Output Layout”頁的加號,選擇“Module Output”,點擊OK。
檢查一個右側 CloudCalculate 的五個依賴包是否正確。如果是這五個依賴就沒有問題。
hadoop-nfs-2.7.7.jar
hadoop-hdfs-2.7.7.jar
xz-1.0.jar
hadoop-mapreduce-example-2.7.7.jar
hadoop-yarn-api-2.7.7.jar
新建Java類
在項目文件目錄中右擊 src,新建一個 Java class,命名為“Triangle”。
代碼的話可以自己嘗試著寫,這里我們給出一個計算三角形個數的 Java 代碼以及測試數據集的百度云地址鏈接
鏈接:https://pan.baidu.com/s/1g3-pmUqf7Lfh2NTWe3muow
提取碼:fkrs
配置編譯器
在菜單欄點擊 RunRunRun -> EditConfigurationsEdit ConfigurationsEditConfigurations
點擊左上方的加號,選擇 Application。
名字隨便起,我們就命名為“TriangleCount”,Main class 點擊右側···可以選擇,我們選擇 Triangle。
至于參數 Program argument,因為我們在代碼中寫了三個 Job,所以我們需要四個參數。參數名可以隨便定,第一個參數是輸入文件的文件夾,最后一個參數是輸出文件的文件夾,我們就命名為
input
tmp1
tmp2
output
參數就填入以下四個,注意用空格分隔。
input/ tmp1/ tmp2/ output/
最后我們需要在 src 的同級目錄建立 input 文件夾,并把輸入文件放在里面。
右擊“CloudCalculate”,選擇 NewNewNew -> DirectoryDirectoryDirectory,命名為“input”。
運行程序
至此,該配置的參數已經全部配置完畢,直接點擊運行即可。
我們運行的是 HighSchool 數據集,此數據集的運行結果為 34220
由于Hadoop的設定,下次運行之前時要刪除 tmp1、tmp2、 output 文件夾。 因為這個項目是建立在D盤,所以每次運行之后,會在D盤生成一個 tmp 文件夾,下次運行前也請刪除。
參考博客
Intellij idea開發Hadoop MapReduce程序
總結
以上是生活随笔為你收集整理的IDEA+Hadoop运行TriangleCount程序的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows下配置单机Hadoop环境
- 下一篇: 正则表达式-基础