在ubuntu体系上利用Hadoop搭建集群

老婆出轨 · 2024-11-9 20:25:34

两台ubuntu（注意：hosts、config以及hadoop中的主节点、附属节点的主机名应保持一致）参考博客

1、设置ssh（默认毗连方式 ssh 用户名@主机ip）使得免ip、免用户名登录（ssh 自定义主机名）

2、安装hadoop并设置hadoop环境变量、安装java并设置JAVA_HOME（参考博客）

3、修改/usr/local/hadoop/etc/hadoop 中的几个设置文件

hadoop-env.sh：设置运行时的环境，指定JAVA_HOME的安装目录：export JAVA_HOME=安装目录（注意必须直接指出安装路径，不能利用$JAVA_HOME,否则运行时会报错找不到JAVA_HOME）
slaves（标明全部的附属节点主机名，利用该主机名可以直接ssh登录主机）（该文件仅master节点持有）把全部从节点的主机名写到这儿就可以，这是告诉hadoop进程哪些呆板是从节点。每行写一个，比方

条件是你已经为每个节点进行了hostname的命名。而且每个节点的hosts文件你修改了本地dns的指向，让这些主机指向约定好的IP。然后每个节点的hosts文件保持同步。
焦点设置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

core-site.xml:文件体系采用hdfs实现、暂时数据存放的位置、缓冲区大小，实际工作中根据服务器性能动态调整、开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收

hdfs-site.xml:

mapred-site.xml

yarn-site.xml:这个文件就是设置资源管理体系yarn了，其中主要指定了一些节点资源管理器nodemanager，以及总资源管理器resourcemanager的设置。可以看到这个设置中，跟mapreduce框架是相关的。

4、将hadoop文件夹发送给其他的slave节点、删除其中的slaves文件、在各个slave节点上设置hadoop环境变量、安装java并设置JAVA_HOME（参考博客）

5、启动(在master节点)

执行NameNode的格式化：hdfs namenode -format（第一次启动服务前进行的操纵，之后再开启集群无需此操纵）
启动 Hadoop：
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
可以在master和slave节点上利用jps命令查看各个节点所启动的进程
master

slave1
关闭集群
stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复