當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

IDEA+Hadoop运行TriangleCount程序

發布時間：2025/3/21 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 IDEA+Hadoop运行TriangleCount程序小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

IDEA+Hadoop運行MapReduce程序

文章目錄

IDEA+Hadoop運行MapReduce程序
- IDEA新建項目
- 項目配置
- 新建Java類
- 配置編譯器
- 運行程序
- 參考博客

IDEA新建項目

首先，請確保電腦上已經安裝了 Hadoop 并配置了環境變量。如果沒有的話，請參考這篇博客 Windows下配置單機Hadoop環境

首先，打開IDEA，新建一個 Java 項目（不需要從模板創建）

項目名字隨便，我們就起為“CloudCalculate”，點擊 Finish

項目配置

在菜單欄點擊 $F i l e$ -> $P r o j e c t S t r u c t u r e$ ，這兩處的 SDK 版本要對應才行

點擊左側的 Modules，找到 Sources 配置，這里的 Language level 也要和剛才的 SDK 版本相同才行。

還是在 Modules 下，找到 Dependencies 配置，點擊右側的加號，選擇第一個“JARs or directories”。在彈出的窗口中選擇當初安裝 Hadoop 的路徑，導入以下五個 hadoop 的 jar 包依賴。

如果彈出需要 Choose Roots，點擊OK就行。

在左側找到 Artifacts，點擊中間的加號，選擇 $J A R$ -> $e m p t y$ 。名字隨便起，我們就命名為“TriangleCount”。

點擊下面“Output Layout”頁的加號，選擇“Module Output”，點擊OK。

檢查一個右側 CloudCalculate 的五個依賴包是否正確。如果是這五個依賴就沒有問題。

hadoop-nfs-2.7.7.jar
hadoop-hdfs-2.7.7.jar
xz-1.0.jar
hadoop-mapreduce-example-2.7.7.jar
hadoop-yarn-api-2.7.7.jar

新建Java類

在項目文件目錄中右擊 src，新建一個 Java class，命名為“Triangle”。

代碼的話可以自己嘗試著寫，這里我們給出一個計算三角形個數的 Java 代碼以及測試數據集的百度云地址鏈接

鏈接：https://pan.baidu.com/s/1g3-pmUqf7Lfh2NTWe3muow
提取碼：fkrs

配置編譯器

在菜單欄點擊 $R u n$ -> $E d i t C o n f i g u r a t i o n s$

點擊左上方的加號，選擇 Application。

名字隨便起，我們就命名為“TriangleCount”，Main class 點擊右側···可以選擇，我們選擇 Triangle。

至于參數 Program argument，因為我們在代碼中寫了三個 Job，所以我們需要四個參數。參數名可以隨便定，第一個參數是輸入文件的文件夾，最后一個參數是輸出文件的文件夾，我們就命名為

input
tmp1
tmp2
output

參數就填入以下四個，注意用空格分隔。

input/ tmp1/ tmp2/ output/

最后我們需要在 src 的同級目錄建立 input 文件夾，并把輸入文件放在里面。

右擊“CloudCalculate”，選擇 $N e w$ -> $D i r e c t o r y$ ，命名為“input”。

運行程序

至此，該配置的參數已經全部配置完畢，直接點擊運行即可。

我們運行的是 HighSchool 數據集，此數據集的運行結果為 34220

由于Hadoop的設定，下次運行之前時要刪除 tmp1、tmp2、 output 文件夾。 因為這個項目是建立在D盤，所以每次運行之后，會在D盤生成一個 tmp 文件夾，下次運行前也請刪除。

參考博客

Intellij idea開發Hadoop MapReduce程序

總結

以上是生活随笔為你收集整理的IDEA+Hadoop运行TriangleCount程序的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Windows下配置单机Hadoop环境
下一篇：正则表达式-基础