数据仓库与分析如安在hadoop上进行词频统计（完全分布）

立聪堂德州十三局店 发表于 2025-3-26 15:13:28

如安在hadoop上进行词频统计（完全分布）

1、起首要自己准备一个文本文档，txt格式，名字为：word.txt
hollow world
low world
yellow world
hollow hadoop
yarm hadoop 然后在hadoop1的虚拟机下，创建目录，只创建这一个目录就可以。
hdfs dfs -mkdir -p /wordcount/input 然后切换到data目录
cd /export/data 输入rz进行刚才文本文件的上传.
上传完成后，必要将上传的文件再次上传到hadoop1的刚刚创建的input目录下。
hdfs dfs -put /export/data/world.txt /wordcount/input
可以通过，web UI的方式查看是否上传乐成。进入到这个页面，点击右上角的，Utilities，点击第一个选项，即可查看文件是否上传乐成。
https://i-blog.csdnimg.cn/direct/1d332498ed7e43fab928852b1c34a02e.png
https://i-blog.csdnimg.cn/direct/abe516464c0647e98ee0ab051fc49e1f.png
如果看到最下方的一个文件即为上传乐成。
2、切换回终端控制工具
进入mapreduce目录。
cd /export/servers/hadoop/share/hadoop/mapreduce
输入ll下令，查看文件内容。显示如下内容即为乐成，
https://i-blog.csdnimg.cn/direct/21b838f26d7e4486a0d8432aa41f5fe0.png
随后，请看到最后一行红色的字体。
是hadoop提供的mapreduce工具，通过这个程序可以进行词频统计。
在mapreduce目录下执行以下下令。
留意！！！不要自己创建output目录，如果自己创建了output目录会导致程序运行失败，也可以改一个没有遇到过的下令。可以随意发挥。
hadoop jar hadoop-mapreduce-examples-3.3.1.jar wordcount /wordcount/input /wordcount/output
3·通过利用欣赏器访问的YARN的Web UI可以查看程序的运行状态。
如果没有展示，可以刷新一下。
如果还是没有，那应该是上传失败。
https://i-blog.csdnimg.cn/direct/187ec917a1dc42bf833156b4bcc90fb9.png
接下来就可以等候程序运行了，mapreduce运行部分代码如图所示。
https://i-blog.csdnimg.cn/direct/858b3f48566d434f955f94717e29f7b7.png
之后就可以悄悄等候。
那么最后，可以去HDFS的ui查看统计效果，效果存放在wordcount/output目录中。
https://i-blog.csdnimg.cn/direct/47cd6fef085f4dca9108737bfb853d44.png
点开就下面的part-00000就能看了。
今天的教学完毕，大家喜欢的话，可以关注支持一下~

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

如安在hadoop上进行词频统计（完全分布）