论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
Oracle
›
优化数据处理服从,解读 EasyMR 大数据组件升级 ...
优化数据处理服从,解读 EasyMR 大数据组件升级
罪恶克星
论坛元老
|
2024-7-31 11:50:13
|
显示全部楼层
|
阅读模式
楼主
主题
1788
|
帖子
1788
|
积分
5364
EasyMR
作为袋鼠云基于云原生技术和 Hadoop、Hive、Spark、Flink、Hbase、Presto 等开源大数据组件构建的
弹性盘算引擎
。此前,我们已就其展开了多方位、多角度的详尽介绍。而此次,我们成功接入了大数据组件的
升级和回滚功能
,可以或许借助 EasyMR 来掌控大数据组件的升级与回滚流程。
在本文中,我们就将为各人详细介绍在 EasyMR 中怎样接管大数据组件的升级和回滚流程。
传统大数据组件升级
大数据技术当下是全球各行业的核心技术之一,其核心要义在于把数据拆解为更小的数据块,然后在分布式的情况中加以处理。Hadoop 和 Spark 作为当前最盛行的
大数据处理框架
,它们通过不同的方法来实现这一目标。
而在传统的大数据组件升级流程中,通常会遵循以下几个步骤:
● 情况准备
· 确保当前情况满足新版本 Spark 和 Hive 的依赖要求
· 备份当前的配置文件和重要数据
● 下载软件
· 从官方网站下载新版本的 Spark 和 Hive 安装包
● 停止服务
· 在升级前,停止所有正在运行的 Hadoop、Hive 和 Spark 服务
● 替换安装包
· 将下载的新版本 Spark 和 Hive 安装包替换旧版本的安装包
● 配置 Hive
· 解压 Hive 安装包并重命名目次
· 修改
hive-site.xml 配置文件
,将旧版本的配置文件复制到新版本中,并根据新版本的要求进行必要的修改和更新
· 将 MySQL 的 JDBC 驱动放到 Hive 的 lib 目次下
● 配置 Spark
· 解压 Spark 安装包
· 配置 spark-env.sh 和 spark-defaults.conf 文件,将旧版本的配置文件复制到新版本中,并根据新版本的要求进行必要的修改和更新
· 将 Spark 的 jar 包上传到 HDFS 的特定目次下
● Hive 元数据升级
· 如果 Hive 版本有变更,可能需要使用
schematool 工具
来升级 Hive 的元数据存储
● 启动服务
· 启动 Hadoop 集群和 MySQL 服务
· 启动 Hive 服务,包括 Metastore 和 HiveServer2
● 重新配置集成
· 根据新版本的要求重新配置 Spark 与 Hive 的集成,包括更新 hive-site.xml 和 spark-defaults.conf 文件
● 测试验证
· 启动 Hadoop、Hive 和 Spark 服务,执行测试查询以验证升级是否成功
在上述流程中,我们可以或许明显看出升级流程的繁琐。同时,大数据组件部署之间存在一定差别,例如:hbase 与其他组件不同,需要备份 zookeeper。这意味着在部署时,我们起首要将各个组件间升级的差别点和升级方案进行总结。
鉴于 Hadoop 本身的复杂性,
运维
职员在进行升级操作时,需要确认升级方案有无遗漏之处,一旦出现步骤遗漏,便会致使升级失败,严重情况下还可能造成数据丢失。
EasyMR 接管大数据组件升级
考虑到上述传统 Hadoop 升级所产生的复杂状态,我们决定把这种复杂性交由平台来处理,由平台接管升级过程中不同组件的差别性操作以及配置文件备份等相关操作,将简朴的操作逻辑呈现给用户。
接下来,我们将从 Hive、HBase 和 Spark 组件的升级方面,来介绍
EasyMR
是怎样接管大数据组件的升级流程的。
Hadoop 部署
在
主机模式
下部署 Hadoop 时,我们需要下载 Hadoop 的安装包,并依照步骤渐渐进行操作。然而,在 EasyMR 上,我们仅需按照打包文档把打包好的产品包上传至 EasyMR 平台,即可实现一键部署。
选择需要部署的 Hadoop 服务。
先分配服务需要部署的节点,随后执行部署,等待一段时间,若没有问题,便完成了 Hadoop 组件的部署工作。
Hadoop 的升级也仅需按照上述流程操作即可,
EasyMR
会起首主动停止并卸载旧服务,并且备份旧的配置文件。在上述流程顺遂通过后,再进行新版本的部署。
Hive 升级
上面我们已回首了 Hadoop 组件的部署方式,接下来正式介绍 Hive 组件从 3.1.2 版本升级到 3.2.2 版本的具体步骤。
在 Hive 的升级过程中,需要先使用
mysqldump 工具
对 MySQL 数据库进行备份,只有当备份成功后,方可进行后续的升级操作。
升级流程将按照 Hadoop 升级逻辑分配服务节点进行部署。
HBase 升级
HBase 升级和 Hive 升级存在差别。Hive 升级起首得备份数据库,HBase 却不用,只需操作职员在部署时确认 HBase 的兼容性问题就行。
后续同样按照升级流程,勾选
产品包部署服务
,分配服务部署节点即可。
Spark 升级
Spark 升级时需要留意的是,有无正在运行的任务。在 Spark 升级前,会获取 yarn_resourcemanager 上运行中的任务状态,若存在,会给出提示。然后由操作职员依据当前状态决定是否逼迫升级。
平台管控备份流程
上面介绍了用户层面能感知到的不同服务升级的差别,下面来讲一讲在步伐后台我们开展的那些操作。
· 每次升级回滚,后台会主动将 conf 配置文件备份,防止配置丢失
· 在 HBase 升级流程中,会先备份 zookeeper 的服务数据
· 然后通过
grpc 服务
调用 hbase_bak 备份脚本,对 Hadoop 的服务数据进行备份
经过上述操作,我们可以很轻松地在
EasyMR
上完成大数据组件的升级和回滚操作,其余服务也能通过雷同步骤操作完成。
总结
在 AI 蓬勃发展的时代,数据已然成为 AI 应用中至关重要的一个环节。EasyMR 作为国产的大数据引擎,将会在大数据范畴展开更为深入的探索,致力于简化大数据工具的操作难度,进步
运维
职员的工作服从。
《行业指标体系白皮书》下载地址:
https://www.dtstack.com/resources/1057?src=szsm
《数栈产品白皮书》下载地址:
https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:
https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=szbky
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
罪恶克星
论坛元老
这个人很懒什么都没写!
楼主热帖
2. 函数
从Android开发的角度比较MVC,MVP,MVVM ...
京东张政:内容理解在广告场景下的实践 ...
KAFKA EAGLE 监控MRS kafka之操作实践 ...
关键字和标识符
React技术栈 --》plugin与JSX语法使用 ...
HCIA学习笔记十一:ARP地址解析协议 ...
dotnet 6 为什么网络请求不跟随系统网 ...
数字图像增强的一般方法
Vue前后台数据交互实例演示,使用axios ...
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
SQL-Server
Java
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表