一文详解GaussDB(DWS) 的并发管控和内存管控

宁睿  金牌会员 | 2022-11-24 20:30:01 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 570|帖子 570|积分 1718

摘要:DWS的负载管理分为两层,第一层为cn的全局并发控制,第二层为资源池级别的并发控制。
本文分享自华为云社区《GaussDB(DWS) 并发管控&内存管控》,作者: fighttingman。
1背景

这里将并发管控和内存管控写在一起,是因为内存管控实际是通过限制语句的并发达到内存管控的目的的。内存管控是基于语句的估算内存的前提下进行管控的,通俗的说就是语句有个估算内存,当资源池的剩余内存小于语句的估算内存时,这个语句就会排队等待,等资源池内的语句执行完,资源池有足够的剩余内存的时候,才会让这个语句执行。所以内存管控的实际效果和语句的估算内存有很大关系,估算的大了就会造成大量语句排队,实际没有使用那么多内存,造成内存资源浪费,相反估算的小了,就会有很多语句下发,实际内存使用就会变多,就有语句报内存不足的错误风险。
数据库系统的并发控制,在整个系统中起着很重要的作用,比如很多用户的业务压力过大时,有时会导致连接数量被占满,有时会导致某种计算资源被占满,有时会导致存储空间被占满,这些情况都会导致整个集群进入异常甚至不可用的状态:正在执行的作业互相争抢CPU,会导致大家都不能好好执行;大量作业执行时,占用大量内存,很容易触发到内存瓶颈,造成作业内存不可用问题,导致业务报错等等。在不进行并发控制的情况下,这些情况都很可能会出现,影响到正常业务。
2 总体介绍

DWS的负载管理分为两层,第一层为cn的全局并发控制,第二层为资源池级别的并发控制。在通过第一层控制的时候,会继续向前走到第二层资源池控制,根据资源池当前的负载资源情况决定作业继续执行或者排队。
基于DWS并发控制逻辑看出,实际作业执行中,可能会在两种队列中排队:
一种是全局队列(global queue)这种队列不区分简单和复杂作业,也不区分是DDL或者是普通语句,这种是每个cn生效。
一种是资源池队列(resource pool queue),用户下发的一般语句会根据资源消耗估算以及复杂程度在这里进行判断是否排队。
在两层队列的过滤下,DWS会筛选出当前能执行的语句,使其正常运行,运行时也会受到其所属资源池资源的限制(只能使用资源池配置的CPU、内存、IO配额)。
3 全局排队

这里介绍几个常用视图以及SQL语句,可以迅速判断目前的业务出现问题的原因,受限根据以下视图可以看到目前的作业是不是在排队,之后要迅速分析为什么在排队,是因为负载管理各个参数配置问题,还是因为正在执行的语句占据了过多的资源导致的排队。
pgxc_stat_activity (活跃视图)
查询当前执行时间最长的语句的排队状态,query_id(数据库中作业的唯一标识),以及详细的语句信息。
select coorname,usename, current_timestamp-query_start as duration, enqueue,query_id,query from pgxc_stat_activity where state='active' and usename  'Ruby' order by duration desc;
根据该语句可以迅速判断出哪些语句执行时间很长,是什么样的语句执行很慢以及该语句的query_id,便于迅速进入下一步排查。
该视图中enqueue字段中如果显示waiting in global queue就代表在全局排队。全局排队是受GUC参数max_active_statements参数控制的,是单cn生效的,也就是每个cn都可以支持这么大的并发量。比如集群中有3个cn实例,GUC参数max_active_statements参数设置为60,也就是说每个cn都支持60个语句并发执行,集群全局支持3 * 60 = 180并发执行作业。当下发作业大于这个cn设置的max_active_statements的时候就会进行全局排队,在pgxc_stat_activity视图中enqueue字段就会显示waiting in global queue。
4 资源池排队

4.1 静态负载管理

当GUC参数enable_dynamic_workload设置为off的时候就代表是静态负载管理模式。静态负载管理的情况下,pgxc_stat_activity视图中enqueue字段只会有waiting in respool queue。并发控制参数为资源池的max_dop(简单作业)和active_statements(复杂作业)。
1)简单作业和复杂作业的定义
在静态负载管理中,简单作业是估算代价cost值小于GUC参数parctl_min_cost值的作业。反之则判定为复杂作业。该GUC参数默认为10W,
当parctl_min_cost为-1时,或者作业估算代价小于10时,作业都判定为简单作业。
2)简单作业并发限制
  1. ALTER RESOURCE POOL resource_pool_a1 WITH (max_dop=10);
复制代码
通过设置资源池的max_dop参数设置简单作业并发,关联资源池resource_pool_a1的用户都受到这个参数的控制。当所有关联这个资源池的用户的所有作业数量之和大于这个参数的时候,就会进行资源池排队,活跃视图enqueue字段就会显示waiting in respool queue。
3)复杂作业并发限制
  1. ALTER RESOURCE POOL resource_pool_a2 WITH (active_statements=10);
复制代码
通过设置资源池的active_statements参数控制复杂作业的并发数,关联资源池resource_pool_a2的用户都受到这个参数的控制。

  • 当MEM_PERCENT参数数值为0时,ACTIVE_STATEMENTS为x(1~INT_MAX),该资源池上的作业并发数不大于x。
  • 当ACTIVE_STATEMENTS参数数值为-1且MEM_PERCENT为正值时,并发由运行作业的内存估值和MEM_PERCENT的取值决定。
  • 当MEM_PERCENT参数数值为正值且ACTIVE_STATEMENTS为x(1~INT_MAX)时,并发由运行作业的内存估值和MEM_PERCENT的取值决定,且并发不能大于x。
  • 当MEM_PERCENT参数数值为0且ACTIVE_STATEMENTS为-1时,资源池并发不受限。
资源池使用并发点数的计数方式来计算可执行的复杂作业并发数量,并发点数计算公式为
作业使用内存点数:active_points = (query_mem/respool_mem) * active_statements * 100
作业使用并发点数:active_points = 100
资源池总点数:total_points = active_statements * 100
单位点数: 100
4)相关说明

  • 资源池分快慢车道,快车道管控简单作业,慢车道管控复杂作业
  • MAX_DOP对快车道并发进行限制,取值范围为-1 ~ INT_MAX,默认为-1,表示不管控。
  • ACTIVE_STATEMENTS取值范围为 -1 ~ INT_MAX, 默认值为10,建议使用该默认值。当取值设置为0或者-1时,慢车道并发不受ACTIVE_STATEMENTS限制。
  • MEM_PERCENT取值范围为0~100,当取值设置为0时,慢车道并发不受MEM_PERCENT限制。
  • 慢车道并发受ACTIVE_STATEMENTS和MEM_PERCENT限制,同时点数由ACTIVE_STATEMENTS决定。当ACTIVE_STATEMENTS=-1或0时,total_points=90。total_points点数耗尽后,慢车道查询会触发排队操作,队列满足先进先出。
  • query_mem为优化器估算的作业内存大小,即PG_SESSION_WLMSTAT视图中的statement_mem;作业无估算内存数值时,不进行并发控制。
  • respool_mem为资源池的实际内存。
4.2 动态负载管理

当GUC参数enable_dynamic_workload设置为on的时候就代表是动态负载管理模式。动态负载管理的情况下,pgxc_stat_activity视图中enqueue字段会有waiting in respool queue和waiting in global queue。
1)简单作业和复杂作业的定义
动态负载管理下优化器估算内存大于32M认为是复杂作业,反之认为是简单作业。
运行中的作业复杂简单情况可以通过PG_SESSION_WLMSTAT中的attribute字段查看。
2)动态负载管理相关说明
<ul><li data-pid="gzvI_J5w">集群有一个CN会作为中心协调节点(CCN),用于收集和调度作业执行,该节点可以通过cm_ctl query -Cv查询到,Central Coordinator State会显示其状态。当CCN不存在时,作业不再受动态负载管理控制。<li data-pid="icxk8vpR">CCN上包含全局内存管控队列和资源池队列,目前暂不支持跨队列优先级,在以下场景下优先级低的作业可能优先下发:如果优先级高的作业在全局内存管控队列排队,优先级低的作业在资源池队列排队,则优先级低的作业会优先下发。<li data-pid="bovW_3iz">单CN上依然受到max_active_statements参数限制,但不是强制限制,实际运行的作业可能稍微大于该数值。<li data-pid="u-Iu60IV">简单查询作业(估算值
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宁睿

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表