如安在hadoop上进行词频统计(完全分布)

打印 上一主题 下一主题

主题 2302|帖子 2302|积分 6906

1、起首要自己准备一个文本文档,txt格式,名字为:word.txt
  1. hollow world
  2. low world
  3. yellow world
  4. hollow hadoop
  5. yarm hadoop
复制代码
然后在hadoop1的虚拟机下,创建目录,只创建这一个目录就可以。
  1. hdfs dfs -mkdir -p /wordcount/input
复制代码
然后切换到data目录
  1. cd /export/data
复制代码
输入rz进行刚才文本文件的上传.
上传完成后,必要将上传的文件再次上传到hadoop1的刚刚创建的input目录下。
  1. hdfs dfs -put /export/data/world.txt /wordcount/input
复制代码
可以通过,web UI的方式查看是否上传乐成。进入到这个页面,点击右上角的,Utilities,点击第一个选项,即可查看文件是否上传乐成。


如果看到最下方的一个文件即为上传乐成。
2、切换回终端控制工具
进入mapreduce目录。
  1. cd /export/servers/hadoop/share/hadoop/mapreduce
复制代码
输入ll下令,查看文件内容。显示如下内容即为乐成,

随后,请看到最后一行红色的字体。
是hadoop提供的mapreduce工具,通过这个程序可以进行词频统计。
在mapreduce目录下执行以下下令。
留意!!!不要自己创建output目录,如果自己创建了output目录会导致程序运行失败,也可以改一个没有遇到过的下令。可以随意发挥。
  1. hadoop jar hadoop-mapreduce-examples-3.3.1.jar wordcount /wordcount/input /wordcount/output
复制代码
3·通过利用欣赏器访问的YARN的Web UI可以查看程序的运行状态。
如果没有展示,可以刷新一下。
如果还是没有,那应该是上传失败。

接下来就可以等候程序运行了,mapreduce运行部分代码如图所示。

之后就可以悄悄等候。
那么最后,可以去HDFS的ui查看统计效果,效果存放在wordcount/output目录中。

点开就下面的part-00000就能看了。
今天的教学完毕,大家喜欢的话,可以关注支持一下~

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

立聪堂德州十三局店

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表