IT评测·应用市场-qidao123.com
标题:
集群搭建不再难:1000台服务器的快速启动指南!
[打印本页]
作者:
王海鱼
时间:
2025-2-19 14:50
标题:
集群搭建不再难:1000台服务器的快速启动指南!
若你正面临Cloudera环境摆设、下载安装等方面的挑战,不妨回头看看我们之前发布的《Cloudera安装不再复杂:基础环境设置详解》详尽指南。
大数据集群搭建及管理问题
问题:
需要搭建
1000 台服务器的集群
,其中集群包罗
Hive、Hbase、Flume、Kafka、Spark 等集群
,需要多长时间搭建好?
思考:
搭建四台集群与搭建
1000 台集群
的区别?比较相似。
办理问题
以搭建HDFS为例)
集群环境规划
起首我们需要举行集群基础环境的规划:比如每台节点的
网络 ip 规划
,节点时间同步,每台节点的名称,每台节点
安装 jdk
,节点之间配置免密等。
其次需要举行
Hadoop
的集群规划:比如搭建
HDFS 的版本
,搭建的 HDFS 模式,搭建单机模式?还是完全分布式模式?还是HA的完全分布式模式?
搭建 HDFS
是否需要依赖?比如 zookeeper。
最后对节点举行规划:比如那些节点
搭建 zookeeper
?那些节点搭建 Hadoop 集群等。
实际搭建步骤: 基础环境的搭建
搭建
zookeeper 集群
。
搭建 HDFS 集群
。
存在的问题:
各个大数据技能包的下载。升级复杂。
配置文件多节点之间分发。摆设过程复杂。
大数据技能各个版本的匹配兼容。版本对应杂乱,兼容性差。
集群利用状态、日记查看贫苦。去节点查看详细内容,安全性差。
CDH简介
目前
Hadoop
发行版非常多,除了原生的
Apache Hadoop
外,另有
Cloudera 发行版(CDH
)、Hortonworks 发行版[2018 年与 Cloudera 公司已经归并],
MapR的MapR 产品
、AWS[Amazon Web Services]的 EMR[Elastic MapReduce]等。
目前市场份额占比最高的是前三家。所有这些发行版都是基于 Apache Hadoop 衍生出来的,之所以有这么多版本,是由于
Apache Hadoop
的开源协议决定的:任何人可 以对其举行修改,并作为开源或者贸易产品发布或者贩卖。
Apache Hadoop 版本
: 最原始的版本,所有的发行版都是根本这个版本改进,也称为社区版
Hadoop
。
Cloudera 版本:Cloudera’s Distribution Including Apache Hadoop ,简称 CDH。
Hortonworks 版本
:Hortonworks Data Platform 简称
“HDP”
。
对于国内的用户来说,
CDH 版本
利用最多。CDH 基于
Web
的用户界面,支持大多数
Hadoop
的组件,包括:
HDFS
、
MapReduce
、
Hive、Hbase
、
Zookeeper
等组件, 并且简化了大数据平台的安装和利用,使集群方便管理。
Cloudera 的 CDH 和 Apache 原生的 Hadoop 的区别如下:
1.CDH 对版本的划分非常清晰,CDH 共有
6个版本
,前三个版本已经不再更新,目前更新的两个版本为
CDH5
和
CDH6
,CDH4 基于 Hadoop2.0,CDH5 基于
Hadoop2.2-2.6
,CDH6 基于
Hadoop3.0
,而原生的
Apache Hadoop
版本比较多,CDH相比原生Apache Hadoop做到版本统一管理。
2.CDH相比原生
Hadoop
在兼容性、安全性、稳固性上有较大改善,对
Hadoop
一 些
bug
举行了修复,支持
Kerberos
安全认证,更新速度快且
CDH
文档完善清晰。
3.CDH 支持
yum 包
,
rpm 包
,
tar 包
,
Cloudera Manager
几种方式安装,原生的
Apache Hadoop
只支持
tar包
安装。
4.提供了摆设、安装、配置工具,大大进步了集群摆设的效率,可以在短时间内摆设好集群。
5.运维简单,提供了管理、监控、诊断、配置修改工具,管理配置方便,定位问题快速,精确,使运维工作简单高效。
CDH集成组件
CDH 集成了数据整合、存储、盘算、搜索、分析等大数据相关技能组件,如下图:
CDH 中文官网:https://cn.cloudera.comCDH
英文官网:https://www.cloudera.com
CDH界面
CDH架构
Server:Cloudera Manager 的核心是 Cloudera Manager Server ,
Server
管理控制台服务和托管应用程序逻辑,负责软件的安装、配置、服务的启动与关闭及管 理集群。
Agent:
安装在每台主机上。
Agent
负责进程的启动和制止,解压配置,触发安装及监控主机。
Management Service:
由一组角色组成的服务,这些角色执行各种监视,警报和报告功能。
DataBase:
存储配置及监控信息。
ClouderaRepository:Cloudera Manager分发软件的存储库。
Clients:
与
Server
交互的接口,有两部分,
Admin Console
:管理员
web界面版
。
Api:
用于开发者创建
Cloudera Manager
程序。
以上就是本日分享的全部内容。
如果你想了解更多关于:Cloudera 系统环境准备、基础环境安装、集群摆设以及应用组件安装等全方位的技能的问题,可以后台接洽我。例如:从环境搭建/集群摆设,内存扩容/问题排查,数据迁徙等助你轻松应对数据管理的复杂性。
感谢你的阅读,如果喜欢我的文字,可以持续关注我,会陆续为你更新更多干货小知识。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4