日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WordCount代码详解

發布時間:2025/4/5 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 WordCount代码详解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文簡要講解MapReduce實例–WordCount代碼


MapReduce應用

使用MapReduce的前提:

  • 待處理的數據集可以分解成許多小的數據集
  • 每一個小數據集都可以完全并行地進行處理

WordCount實例

WordCount是最簡單、最能體現MapReduce思想的程序之一,可以稱為MapReduce版Hello World,其主要功能是:統計一系列文本文件中每個單詞出現的次數。

樣例:

自定義WordCount實例并實現

理解以下代碼的關鍵是明白Map和Reduce操作的輸入數據、輸出數據是什么

import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/** * 經過在 map 函數處理,輸出中間結果<word,1>的形式,在 reduce 函數中完成對每個單詞的詞頻統計<word, frequency> */ public class WordCount {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {// 啟動job任務Job job = Job.getInstance();job.setJobName("WordCount");// 設置mapper類、Reducer類job.setJarByClass(WordCount.class); // 設置程序類job.setMapperClass(doMapper.class); // 設置Mapper類job.setReducerClass(doReducer.class); // 設置Reducer類// 設置Job輸出結果<key,value>的中key和value數據類型,因為結果是<單詞,個數>,所以key設置為"Text"類型,Value設置為"IntWritable"類型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// hdfs文件系統Path in = new Path("hdfs://localhost:9000/mr_demo/input/cust_fav"); //需要統計的文本所在位置Path out = new Path("hdfs://localhost:9000/mr_demo/output"); // 輸出文件夾不能存在// 本地文件系統。若文件在本地文件系統,則替換為以下代碼// Path in = new Path("file:///usr/local/java/data/mapreduce_demo/input/data_click"); // 用本地文件輸入// Path out = new Path("file:///usr/local/java/data/mapreduce_demo/output"); // 結果輸出到本地,文件夾不能已經存在// 設置job執行作業時輸入和輸出文件的路徑FileInputFormat.addInputPath(job, in);FileOutputFormat.setOutputPath(job, out);// 無論程序是否執行成功,均強制退出// 如果程序成功運行,返回true,則程序返回0;如果程序執行失敗,返回false,則程序返回1System.exit(job.waitForCompletion(true) ? 0 : 1);} }/** * @param KEYIN * →k1 表示每一行的起始位置(偏移量offset),Object類型 * @param VALUEIN * →v1 表示每一行的文本內容,Text類型 * @param KEYOUT * →k2 表示每一行中的每個單詞,Text類型 * @param VALUEOUT * →v2 表示每一行中的每個單詞的出現次數,固定值為1,Intwritable類型 */ static class doMapper extends Mapper<Object, Text, Text, IntWritable> {public static final IntWritable one = new IntWritable(1);// 重寫map方法,將k1,v1轉為k2,v2@Overrideprotected void map(Object key, Text value, Context context) throws IOException, InterruptedException {// 單詞分隔符為\tString[] splits = value.toString().split("\t");for(String word: splits){context.write(new Text(word), one)}} }/** * @param KEYIN * →k2 表示每一行中的每個單詞,Text類型 * @param VALUEIN * →v2 表示每一行中的每個單詞的出現次數,固定值為1,IntWritable類型 * @param KEYOUT * →k3 表示每一行中的每個單詞,Text類型 * @param VALUEOUT * →v3 表示每一行中的每個單詞的出現次數之和,IntWritable類型 */ static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {int sum = 0;// 遍歷集合,將集合中的數字相加for (IntWritable value : values) {sum += value.get();}result.set(sum);context.write(key, result);} }

mapreduce中內置的WordCount程序位置:/usr/local/java/hadoop/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar


編譯打jar包運行

  • 將Hadoop的classhpath信息添加到CLASSPATH變量中,在終端中增加如下幾行:
  • # 操作環境變量文件 sudo vim profile# 寫入以下兩行數據 export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH# 使環境變量生效 source profile
  • 在終端中使用javac命令編譯文件
  • javac WordCount.java
  • 把.class文件打成jar包
  • jar -cvf WordCount.jar ./WordCount*.class
  • 運行程序,input和output文件均在/usr/local/java/data文件夾下
  • /usr/local/java/data jar WordCount.jar WordCount input output

    總結

    以上是生活随笔為你收集整理的WordCount代码详解的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。