数据仓库与分析Hadoop利用mapreduce举行词频统计 & yarn查看统计结果 (0基础手把手讲授)

万万哇 发表于 2024-12-8 05:34:38

Hadoop利用mapreduce举行词频统计 & yarn查看统计结果 (0基础手把手讲授)

好师傅的传送门：Hadoop分布式词频统计 (yuque.com) 非常精简干练思路非常流通
在这里继续具体补充一下具体的 0基础小白上手mapreduce词频统计的步调

一、基础

Hadoop完全式分布搭建完成

若还未举行搭建请看下面这位老哥这篇博文非常具体 Hadoop完全分布式搭建（Hadoop-3.3.0)_hadoop3.3-CSDN博客

二、思路

1、先将词频统计文本准备好且启动集群

2、将文本上传到假造机文件夹中

3、将本文文件进一步从假造机文件夹中上传到集群文件夹下

4、启动mapreduce功能

5、跑输出结果 & WebUI界面举行yarn的统计结果查看

三、实操

1、先将词频统计文本准备好 & 启动集群

注：用的词频统计的 1.txt 的内容如下（自己创建1.txt文件原封不动粘进去）
hello tom hello allen hello
allen tom mac apple
hello allen apple
hello apple spark allen hadoop spark
内容准备好：命名为1.txt 即可
https://i-blog.csdnimg.cn/direct/d34206a3583e4b5f9cf301f64e32d040.png
集群启动：
【关闭防护墙三台node机器均需要】
systemctl stop firewalld.service 【开启dfs 每台机器均要】
start-dfs.sh 【查看开启环境每台均要】
jps hadoop1：https://i-blog.csdnimg.cn/direct/5fe4d7fea0444e5ab4a14efda9714af5.png
hadoop2：https://i-blog.csdnimg.cn/direct/1a92962da8704f478851557bf2b7b8be.png
hadoop3：https://i-blog.csdnimg.cn/direct/716036c90c204f74a5aa643ac94e6357.png
2、将文本上传到假造机文件夹中

tips：需要一点Linux基础想要了解常用命令可见：Ubuntu(乌班图)常用命令-CSDN博客
Ubuntu和Linux 是不同的发行版指令基本上保持同等
（1）创建假造机当地文件夹为input

mkdir /input https://i-blog.csdnimg.cn/direct/fe53240c37f242538045aa4a769e1037.png

（2）进入input文件夹

cd /input https://i-blog.csdnimg.cn/direct/464e21a3569e4d58a01ed4546491b197.png

（3）将文本文件写入命名为1.txt

vim 1.txt https://i-blog.csdnimg.cn/direct/b2ee540232454f198ac6606e114d3422.png

（4）写入

输入i 进入写入模式粘贴刚刚上面的文本内容
按住shift 再摁esc 和冒号
发现下方有冒号（：）输入 wq 回车完成写入并生存
https://i-blog.csdnimg.cn/direct/7923a5371ac848809a34705c8e00e110.png
https://i-blog.csdnimg.cn/direct/a0f9cfc994fe4f159a3f83a596bdf498.png退出并生存
3、将文件上传到集群文件夹

（1）集群创建input文件夹路径是 /user/root/input

hdfs dfs -mkdir -p /user/root/input https://i-blog.csdnimg.cn/direct/b1ec6163374e4a15ba39f21be4e4b6a2.png

（2）上传假造机文件到集群文件夹

hdfs dfs -put /input/1.txt /user/root/input https://i-blog.csdnimg.cn/direct/12ffd4b676554693b609162d80df5ff0.png

（3）查看集群文件夹中文件是否被乐成上传

hdfs dfs -ls /user/root/input https://i-blog.csdnimg.cn/direct/42a43537eda345fea10ad8211a57356b.png

4、启动mapreduce

（1）进入mapr文件夹

cd /opt/server/hadoop/share/hadoop/mapreduce/ https://i-blog.csdnimg.cn/direct/ad9ae5769e2241939de81aaa63f886dd.png

（2）启动输出

**注意**：这里output文件夹必须是没有被创建过的否则会报错
清撤除路径的output文件夹指令：
hdfs dfs -rm -r -f /user/root/output https://i-blog.csdnimg.cn/direct/ee3230ca45a7488fbbd7f1bc858b3958.png
开启输出
**注意**：这里的指定输出文件夹不能是当地文件夹，必须是集群上的，且不存在的，在输出统计数据时所指定的文件夹会自动被创建。
hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /user/root/input /user/root/output https://i-blog.csdnimg.cn/direct/2eb73470a94d4031982e0310e597babc.png

5、出运行结果 & web界面查看结果

（1）看到命令行结果

hdfs dfs -cat /user/root/output/part-r-00000
https://i-blog.csdnimg.cn/direct/917bb5ed13664a2b9d3276875cae5040.png

（2）进入webui界面

起首打开hadoop1机子的火狐
格式【ip地点：端口号】回车即可进入webui界面
默认端口号：9870 ip地点开终端输入”ip a“ 找到粘贴过来即可
https://i-blog.csdnimg.cn/direct/f01bf9feb6aa4b98b2e73c6f6803cec2.png
https://i-blog.csdnimg.cn/direct/6d28c6d4811c4c74a79f32ac9e281c7a.png
（3）查看yarn结果

点击user 重复点击出现两张一张input 一张output 点击output 即可查看分词结果
https://i-blog.csdnimg.cn/direct/e31707e1a4e34ab09dfca7428473d171.png
https://i-blog.csdnimg.cn/direct/70ae56afa50f474b9738d767d990f494.png

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Hadoop利用mapreduce举行词频统计 & yarn查看统计结果 (0基础手把手讲授)