【云计算】MapReduce入门demo-wordcont解析
小标 2018-12-13 来源 : 阅读 1291 评论 0

摘要:本文主要向大家介绍了【云计算】MapReduce入门demo-wordcont解析,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】MapReduce入门demo-wordcont解析,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。


今天初次接触MapReduce,虽然目前很少有人用MR,但是我相信这块还是要学一下的,因为这块思想会影响后面的学习。


mapper:


import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * KEYIN: 默认情况下,是mr框架所读到的一行文本的起始偏移量,Long,
 * 但是在hadoop中有自己的更精简的序列化接口,所以不直接用Long,而用LongWritable
 * 
 * VALUEIN:默认情况下,是mr框架所读到的一行文本的内容,String,同上,用Text
 * 
 * KEYOUT:是用户自定义逻辑处理完成之后输出数据中的key,在此处是单词,String,同上,用Text
 * VALUEOUT:是用户自定义逻辑处理完成之后输出数据中的value,在此处是单词次数,Integer,同上,用IntWritable
 * 
 * @author
 *
 */

public class WordcountMapper extends Mapper{

 /**
  * map阶段的业务逻辑就写在自定义的map()方法中
  * maptask会对每一行输入数据调用一次我们自定义的map()方法
  */
 @Override
 protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
  
  //将maptask传给我们的文本内容先转换成String
  String line = value.toString();
  //根据空格将这一行切分成单词
  String[] words = line.split(" ");
  
  //将单词输出为<单词,1>
  for(String word:words){
   //将单词作为key,将次数1作为value,以便于后续的数据分发,可以根据单词分发,以便于相同单词会到相同的reduce task
   context.write(new Text(word), new IntWritable(1));
  }
 } 
 
}


Reducer:


import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * KEYIN, VALUEIN 对应  mapper输出的KEYOUT,VALUEOUT类型对应
 * 
 * KEYOUT, VALUEOUT 是自定义reduce逻辑处理结果的输出数据类型
 * KEYOUT是单词
 * VLAUEOUT是总次数
 * @author
 *
 */
public class WordcountReducer extends Reducer{

 /**
  * 
  * 
  * 
  * 入参key,是一组相同单词kv对的key
  */
 @Override
 protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {

  int count=0;
  /*Iterator iterator = values.iterator();
  while(iterator.hasNext()){
   count += iterator.next().get();
  }*/
  
  for(IntWritable value:values){
  
   count += value.get();
  }
  
  context.write(key, new IntWritable(count));
  
 }
 
}


Driver:


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 相当于一个yarn集群的客户端
 * 需要在此封装我们的mr程序的相关运行参数,指定jar包
 * 最后提交给yarn
 * @author
 *
 */
public class WordcountDriver {
 
 public static void main(String[] args) throws Exception {
  
  if (args == null || args.length == 0) {
   args = new String[2];
   args[0] = "hdfs://master:9000/wordcount/input/wordcount.txt";
   args[1] = "hdfs://master:9000/wordcount/output8";
  }
  
  Configuration conf = new Configuration();
  
  //设置的没有用!  
//  conf.set("HADOOP_USER_NAME", "hadoop");
//  conf.set("dfs.permissions.enabled", "false");
  
  
  /*conf.set("mapreduce.framework.name", "yarn");
  conf.set("yarn.resoucemanager.hostname", "mini1");*/
  Job job = Job.getInstance(conf);
  
  /*job.setJar("/home/hadoop/wc.jar");*/
  //指定本程序的jar包所在的本地路径
  job.setJarByClass(WordcountDriver.class);
  
  //指定本业务job要使用的mapper/Reducer业务类
  job.setMapperClass(WordcountMapper.class);
  job.setReducerClass(WordcountReducer.class);
  
  //指定mapper输出数据的kv类型
  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(IntWritable.class);
  
  //指定最终输出的数据的kv类型
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  
  //指定job的输入原始文件所在目录
  FileInputFormat.setInputPaths(job, new Path(args[0]));
  //指定job的输出结果所在目录
  FileOutputFormat.setOutputPath(job, new Path(args[1]));
  
  //将job中配置的相关参数,以及job所用的java类所在的jar包,提交给yarn去运行
  /*job.submit();*/
  boolean res = job.waitForCompletion(true);
  System.exit(res0:1);
  
 }
 

}


运行后结果:




运行环境:需要搭建hadoop集群,我是用的虚拟机,虚拟出3台linuxx服务器;




          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved