论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
程序人生
›
关于大数据平台上任务管理的思考
关于大数据平台上任务管理的思考
王海鱼
论坛元老
|
2024-3-26 02:21:41
|
显示全部楼层
|
阅读模式
楼主
主题
1031
|
帖子
1031
|
积分
3093
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本文于2019年7月16日完成,发布在个人博客网站上。
考虑个人博客因某种原因无法修复,于是在博客园安家,之前发布的文章逐步搬迁过来。
作业,比如提交一个hive脚本到计算平台上运行,这个脚本宏观上称为一个作业。
任务,比如mapper,reducer等。
资源,比如CPU时间,内存,硬盘IO,网络IO,墙钟等。
期望计算平台提供的信息,比如:
当前有哪些作业在运行。
作业占用的资源。
作业总共使用了哪些运算节点。
指定的作业使用了哪些节点,分别占用了多少资源。
每个节点上分配了哪些任务,分别占用了多少资源。
每个作业有多少stage,分别有多少任务,各占用多少资源。
各分类的排名。
各个mapper,reducer读入的数据量,输出的数据量。
数据表的访问频率,访问数据量。
SQL的执行计划。
监控和通知,比如:
针对上述信息,例行发送指标值。
针对上述信息,定义阈值,当超出阈值,发送给指定的群组。
针对上述信息,提供趋势图,供指定人查看。
运行时占用资源多的作业,执行计划,输入数据量,输出数据量等。
日常工作中需要回答的问题:
计算平台的资源使用情况,有什么变化,变化趋势怎么样。
计算平台的资源使用情况是否合理。
计算平台是否需要扩容。
任务的数量,近期是否有什么变化。
任务处理的数据量,输出的数据量,是否有什么变化,变化的特点是什么,是否合乎业务特点。
任务占用的资源,是否有什么变化,变化的特点是什么。
任务运行时,stage,mapper,reducer的数量,使用的资源等,是否有什么变化,变化的特点是什么。
对于给定的某个作业,占用的资源是否充足或者过多。
对于给定的某个作业,对应的代码,是否需要优化,优化空间有多大。
分配资源的原则,充分利用资源,比如:
重点业务,优先保障。
非重点业务,合理安排调度启动时间,控制等待时间和墙钟时间。
监测资源瓶颈,避免争用。
制定扩容计划,及时实施。
有了上述数据,就有了调整资源的依据,减少无效的沟通,提高生活质量。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
王海鱼
论坛元老
这个人很懒什么都没写!
楼主热帖
在Winform开发中,使用Async-Awati异步 ...
Vue 和 Django 前后端分离实践 (注册 ...
如何在 Vue 3 中使用<script lang=“t ...
C#依赖注入(直白明了)讲解 一看就会系 ...
一条SQL的执行原理
go中 for循环的坑
Vulnhub之Monkeybox详细测试过程(不同 ...
【Django】DRF开发中的一些技巧记录 ...
教务管理系统——数据库课程设计mysql+ ...
三篇学会MySQL数据库【查询详解】 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
Oracle
开源技术
IOS
物联网
.Net
DevOps与敏捷开发
SQL-Server
运维.售后
云原生
Mysql
快速回复
返回顶部
返回列表