Hadoop利用mapreduce举行词频统计 & yarn查看统计结果 (0基础手把手讲授) ...

打印 上一主题 下一主题

主题 784|帖子 784|积分 2352

好师傅的传送门:Hadoop分布式词频统计 (yuque.com) 非常精简干练 思路非常流通
在这里继续具体补充一下 具体的 0基础小白上手mapreduce词频统计的步调


一、基础

Hadoop完全式分布搭建完成 

若还未举行搭建 请看下面这位老哥这篇博文 非常具体  Hadoop完全分布式搭建(Hadoop-3.3.0)_hadoop3.3-CSDN博客

二、思路

1、先将词频统计文本准备好 且启动集群

2、将文本上传到假造机文件夹中

3、将本文文件进一步从假造机文件夹中上传到集群文件夹下

4、启动mapreduce功能

5、跑输出结果    &      WebUI界面举行yarn的统计结果查看


三、实操

1、先将词频统计文本准备好 &   启动集群

注:用的词频统计的 1.txt 的内容如下(自己创建1.txt文件 原封不动粘进去 )
hello tom hello allen hello
allen tom mac apple
hello allen apple
hello apple spark allen hadoop spark
内容准备好:命名为1.txt 即可

集群启动:
【关闭防护墙 三台node机器均需要】
  1. systemctl stop firewalld.service
复制代码
【开启dfs 每台机器均要 】
  1. start-dfs.sh
复制代码
【查看开启环境 每台均要】
  1. jps
复制代码
hadoop1:

hadoop2:

hadoop3:

2、将文本上传到假造机文件夹中

tips:需要一点Linux基础 想要了解常用命令 可见:Ubuntu(乌班图)常用命令-CSDN博客
        Ubuntu和Linux 是不同的发行版 指令基本上保持同等
(1)创建假造机当地文件夹为input

  1. mkdir /input
复制代码


(2)进入input文件夹

  1. cd /input
复制代码


(3)将文本文件写入 命名为1.txt

  1. vim 1.txt
复制代码


(4)写入   

输入i  进入写入模式 粘贴刚刚上面的文本内容 
按住shift  再摁esc 和 冒号 
发现下方有冒号(:)输入 wq 回车 完成写入并生存

退出并生存
3、将文件上传到集群文件夹

(1)集群创建input文件夹  路径是 /user/root/input

  1. hdfs dfs -mkdir -p /user/root/input
复制代码


(2)上传假造机文件到集群文件夹

  1. hdfs dfs -put /input/1.txt /user/root/input
复制代码


(3)查看集群文件夹中文件是否被乐成上传

  1. hdfs dfs -ls /user/root/input
复制代码


4、启动mapreduce

(1)进入mapr文件夹

  1. cd /opt/server/hadoop/share/hadoop/mapreduce/  
复制代码


(2)启动输出

**注意**:这里output文件夹必须是没有被创建过的 否则会报错
清撤除路径的output文件夹 指令:
  1. hdfs dfs -rm -r -f /user/root/output
复制代码

开启输出
**注意**:这里的指定输出文件夹不能是当地文件夹,必须是集群上的,且不存在的,在输出统计数据时所指定的文件夹会自动被创建。
  1. hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /user/root/input /user/root/output
复制代码


5、出运行结果   & web界面查看结果

(1)看到命令行结果

  1. hdfs dfs -cat /user/root/output/part-r-00000
复制代码


(2)进入webui界面

起首打开hadoop1机子的火狐
格式【ip地点:端口号】 回车 即可进入webui界面
默认端口号:9870  ip地点开终端输入”ip a“ 找到粘贴过来即可


(3)查看yarn结果

点击user 重复点击 出现两张 一张input 一张output 点击output 即可查看分词结果



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

万万哇

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表