ToB企服应用市场:ToB评测及商务社交产业平台

标题: Hadoop本地运行模式环境搭建 [打印本页]

作者: 没腿的鸟 时间: 2024-11-8 08:29
标题: Hadoop本地运行模式环境搭建
Hadoop实行

学校Hadoop实行课，课前已经设置好了，末了需要提交实行陈诉，只能重新设置一遍。yingyingying~~~
实行步骤

Step1）：新建虚拟机
Step2）：CentOS设置
Step3）：设置网络并远程连接
Step4）：克隆出三台虚拟机
Step5）：安装设置JAVA和Hadoop
Step6）：以本地模式运行Hadoop
Step7）：运行WordCount案例
具体步骤如下

Step1）：按照如下设置建立虚拟机

1.点击“新建虚拟机”，利用推荐的设置，点击“下一步”

2.选择“安装程序光盘映像文件”，点击“下一步”

3.输入应填写的内容，点击“下一步”

4.给虚拟机命名为“Hadoop”，并生存到相应的位置。

5.点击“完成”，就创建了虚拟机

6.按照如下设置，进行部分参数的修改。

Step2）：CentOS设置

1.启动虚拟机后，我们会看到下面这个界面: 这一步，我们选择 Install CentOS 7 ，按回车继承。

2.选择语言

3.设置时区为上海

4.在这个页面中选择GNOME桌面，然后点击开始安装

设置root用户密码

设置密码后点两次完成退出

6.完成后重启

7.Linux界面（这里为了日后更方便学习linux，在设置中将中文改成了英文，并且调解了清晰度）

Step3）设置网络并远程连接

1、设置网络
利用命令“vim /etc/hostname”，将虚拟机改名为“hadoop100”，
再利用如下命令，进行网络设置，将BOOTPROTO，IPADDR，GATEWAY改成如图设置，

8.利用“ping”命令检查设置后是否可以连接网络，出现如图所示内容，代表连接上了网络，利用“ctrl+c”进行终止，（“ctrl+z”看似可以终止，但是后台会运行，这里不做过多赘述）

2．远程连接
打开“Xshell7”，然后按照下图所示进行设置

之后点击“用户身份验证”，作用是连接Xshell7后登录的用户，之后点击“确定”

找到Hadoop点击连接，

显示“[root@hadoop100 ~]# ”表示连接成功。

Step4）克隆出三台虚拟机

右键“Hadoop”，找到“管理”->“克隆”，

点击下一页

再点击下一页

选择完整克隆，点击下一页

然后进行相干设置进行克隆，这里本人命名为了“Hadoop102”,点击“完成”

按照上面的步骤本人又克隆出了另外两台虚拟机，“hadoop102”、“hadoop103”，之后又按照step3的步骤设置了主机名与网络设置

Step5）：安装设置JAVA和Hadoop

本人是利用Xftp7将Java与Hadoop的压缩包移动到了Hadoop中的“/usr/local/”路径下
1.Java的安装与设置
利用命令“tar -xvzf jdk-8u281-linux-x64.tar.gz -C /usr/local/”，对其进行解压。
并将jdk1.8.0_281目录改名为jdk。利用命令“mv jdk1.8.0_281/ jdk”，再修改jdk目录权限。
结果如图（这里的图片是解压完Java和Hadoop的）

修改profile文件，进行环境变量的设置，利用命令“# vi /etc/profile”在文末加入如下命令

利用命令“source /etc/profile”使其立即收效。
测试JDK是否正常工作：

2安装设置Hadoop
利用命令“cd /opt/software”移动目录“/opt/software”下，利用命令“tar -xvzf hadoop-3.2.2.tar.gz -C /usr/local”解压hadoop-3.2.2.tar.gz到“/usr/local”目录下，结果如图

（上述图片中的“hadoop -> hadoop-3.2.2”为一个软连接，可以通过利用“hadoop”调用“hadoop-3.2.2”
创建的命令为“ln -s hadoop-3.2.2 hadoop”。）
利用命令“vi /etc/profile”修改profile文件，将如下内容添加到文件末尾，进行环境变量的设置

利用命令“source /etc/profile”使其立即收效。
Step6）：以本地模式运行Hadoop（不知到这里改运行什么就恣意运行一下grep命令）

该命令的作用为：提供一些文本文件,可以从中找到想要匹配的文本
将Hadoop的xml设置文件复制到input并运行，命令如下图

运行命令解释：
hadoop：hadoop启动命令
jar：以jar包运行方式运行
share/hadoop/mapreduce-examles-3.2.2.jar ：这是hadoop官网提供的案例目录
grep：启动grep案例
input：输入目录
output：输出目录
如果存在output输出目录，则程序会报错
‘dfs[a-z.]+’：正则表达式表示已dfs开头所有匹配项，可无限累加
下图为命令运行的过程显示的结果

下图为运行竣事显示的结果

查看home目录发现多了“output”文件夹

进入“output”，并查看所有文件

只有一个运行结果。

Step7）：运行WordCount案例

在文档目录下创建一个wcinput目录
wcinput文件下创建一个work.txt文件,其内容为
sunyuan sunyuan sunyuan sunyuan asd assd fgnfhm sadgfs adg dgn advadv advadv sb asd
运行过程命令

运行结果为（本人姓名拼音为“sunyuan”）出现4次

思考与分析

1Hadoop本地模式与分布式模式有何差别？

本地模式是单机运行Hadoop，所有的输入和输出数据都存储在本地文件系统中，任务在本地处理，不涉及分布式存储和盘算。而分布式模式依靠HDFS和YARN，数据存储在多个节点的分布式文件系统中，任务分发到差别的盘算节点进行并行处理，适用于处理大规模数据。
2. 在本次实行中，为什么需要克隆多台虚拟机？

克隆多台虚拟机的目标是为了模仿Hadoop的分布式环境。只管本次实行在本地模式下运行，但通过克隆多台虚拟机，可以在后续实行中设置伪分布式集群，以便更好地理解Hadoop在多节点环境下的工作机制。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)