大数据处置惩罚之数据去重、TopN统计与倒排索引的Hadoop实现 ...

打印 上一主题 下一主题

主题 965|帖子 965|积分 2895

注:下述步骤仅供参考,具体指令和操纵截图的word版本可见上方本博文免费资源绑定。

一、数据去重

1.创建dedup包准备进行数据去重操纵

2.Map阶段的实现:编写实现Mapper组件的类DedupMapper
3.Reduce阶段实现:编写实现Reducer组件的类DedupReducer
4.驱动类实现:编写驱动类DedupDriver
5.在D:\Dedup\input目次下准备好data1.txt和data2.txt文件

6.运行驱动类进行数据去重
7.去重效果如图所示
二、TopN

1.Map阶段的实现:编写实现Mapper组件的类TopNMapper
2.Reduce阶段实现:编写实现Reducer组件的类TopNReducer
3.驱动类实现:编写驱动类TopNDriver

4.在D:\TopN\input目次下准备好num.txt文件
5.运行驱动类进行TopN最大数据获取

6.得到最大的5个数据如图所示

三、倒排索引

1.Map阶段的实现:编写实现Mapper组件的类InvertedlndexMapper
2.Combine阶段的实现:编写实现自界说Combiner组建的类InvertedlindexCombiner
3.Reduce阶段实现:编写用于实现Reducer组件的类InvertedlindexReducer
4.驱动类实现:编写驱动类
5.将倒排索引案例的JAR文件封装
6.将JAR文件上传到Hadoop1的/export/data目次
7.在HDFS上创建/Invertedlndex/input目次,并把file1.txt、file2.txt和file3.txt文件上传
8.运行MapReduce步伐
9.查看运行效果

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

不到断气不罢休

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表