论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
容器及微服务
›
容器及微服务
›
kubernetes负载感知调度
kubernetes负载感知调度
民工心事
金牌会员
|
2024-8-15 01:31:08
|
显示全部楼层
|
阅读模式
楼主
主题
995
|
帖子
995
|
积分
2985
背景
kubernetes 的原生调度器只能通过资源哀求来调度 pod,这很容易造成一系列负载不均的问题,
并且很多情况下业务方都是超额申请资源,因此在原生调度器时代我们针对业务的特性以及评估品级来设置 Requests/Limit 比例来提升资源利用服从。
在这种场景下依然存在很多问题:
节点负载不均:原生 Kubernetes Scheduler 根据 Requests 和节点可分配总量来调度 Pod,既不考虑实时负载,也不估计使用量,这种纯静态的调度导致节点资源利用率分配不均。
在流量波动性业务的场景下,在流量高峰时,部分节点利用率突破安全阈值,但是很多节点的利用率特别点,节点利用率相差特别大
业务周期性:在离线集群分离,在线集群底峰存在巨大资源浪费
本文重要讨论假如解决问题一,在线集群内部提升资源利用率
在线集群 Cpu 离散系数0.45,整个集群高峰时 Cpu 利用率仅25%左右;下图 Cpu 使用率离散图:
破局
基于上述情况,高峰时 Cpu 利用率仅25%肯定不是合理的情况,业界做的好的50%+。想要继续提升利用率,必须解决节点负载不均问题:
感知节点真实负载:要解决节点负载不均问题,必须要上报节点当前真实的负载
基于负载的正向调度插件:在默认调度器的基础上增加基于负载的调度插件,在正向调度是尽量包管节点间水位均匀
基于负载的重调度组件:当业务不断波动,节点大概会由于应用负载变化导致节点负载出现差异,需要重调度迁移 Pod 重新达到均匀
实践
关注的两个开源项目:
Koordinator:
https://koordinator.sh/
Crane:
https://gocrane.io/
相对于 Koordinator 专门为混部而生的软件,Crane以 Finops 为出发点,二者相比Koordinator更适合我们,在离线混部也是下一步计划。
调研测试
上线之后:
遇到的问题
热门节点问题:在业务高峰时,节点负载变高,会出现热门节点,这个时候需要重调度组件到场,把 Pod 重新调度到其他节点上
需要前置打散热门节点,这就需要对应用进行资源画像,在调度中分散这种类型的应用,制止业务高峰热门节点的产生
2. 在1中的情况下,扩容部分节点缓解集群压力时,新上的节点会迅速被热门Pod占满,导致节点负载升高,再次触发重调度
调解调度插件中负载均衡打分插件的权重,让节点负载更均衡,制止热门节点问题
3. 找到合适的节点规格,小规格节点,更容器出现热门节点
在我们的业务场景下下,当前来看48c节点热门节点出现几率小于32c
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
民工心事
金牌会员
这个人很懒什么都没写!
楼主热帖
Cilium系列-10-启用 IPv6 BIG TCP和启 ...
【云原生】Spring Cloud是什么?Spring ...
大数据开源项目,一站式全自动化全生命 ...
容器化|自建 MySQL 集群迁移到 Kubern ...
Spark快速上手(4)Spark核心编程-Spark ...
超详细的手把手撸代码---教你你⾃定义 ...
如火如荼的「云原生」,你了解多少? ...
Centos7 中安装Elasticsearch
【Java面试】介绍下Spring IoC的工作流 ...
用 Flutter 写一个精美的登录页面(最 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
数据仓库与分析
快速回复
返回顶部
返回列表