PromQL计算gateway指标增量最佳实践及常见问题答疑

渣渣兔 · 2025-3-9 03:29:33

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

普米官方网站

普米官方帮助：Getting started | Prometheus
普米下载地址：Download | Prometheus
普米查询语法：Querying basics | Prometheus
普米函数参考：Query functions | Prometheus
promql计算增量

在PromQL（Prometheus Query Language）中，计算增量（即两个时间点之间的差异）通常涉及到使用rate()函数或者increase()函数。这两种方法各有其适用的场景，下面我将分别解释它们并展示如何在PromQL中实现。
1. 使用rate()函数

rate()函数用于计算在指定时间内的均匀速率。这对于计算随着时间的推移而增长的速率非常有用。比方，如果你想计算每秒的请求数，可以使用rate()。

rate(http_requests_total[5m])

复制代码

这里，http_requests_total是一个计数器，[5m]表示在已往5分钟内的数据。rate()函数会计算这5分钟内请求的均匀增长速率。
2. 使用increase()函数

increase()函数用于计算在指定时间范围内的绝对增量。如果你需要知道在两个时间点之间有多少次事故发生，使用increase()是符合的。

increase(http_requests_total[5m])

复制代码

这行代码会返回在已往5分钟内http_requests_total计数的增加量，即总共增加了多少次请求。
3. 使用delta()函数（Prometheus 2.8.0及以后版本）

从Prometheus 2.8.0版本开始，还可以使用delta()函数来计算两个时间点之间的差异。这对于需要精确计算两次查询之间差异的场景非常有用。

delta(http_requests_total[5m])

复制代码

这里，delta()同样计算已往5分钟内http_requests_total的增加量，但是它直接返回增加的数量，而不是均匀速率。
选择哪种方法？

如果你关心的是速率（比如每秒的增长率），使用rate()。
如果你需要知道在特定时间段内发生了多少次事故，使用increase()或delta()（取决于你的Prometheus版本）。
如果你需要精确知道两个时间点之间的差异，使用delta()。

示例：比较不同方法

假设你想要知道在已往1小时内，每小时有多少个HTTP请求：
使用rate()：

rate(http_requests_total[1h]) * 60 * 60 // 将结果转换为每小时的请求数

复制代码

使用increase()：

increase(http_requests_total[1h]) // 直接返回过去1小时内的总增加量

复制代码

使用delta()：

delta(http_requests_total[1h]) // 直接返回过去1小时内的总增加量

复制代码

选择哪种方法取决于你的具体需求和场景。
最佳实践

场景一：springcloud gateway近二分钟的请求数量（绝对增量）

# 近两分钟的调用量（增量查询）
sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_count{IDC="gcgz_nm",namespace="hn01",httpMethod="POST",master="1",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[2m]))

复制代码

注意：查增量时时间区t>=2m（采集间隔的两陪时间），否则查不出数据
表达式详解：
sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_count{IDC="gcgz_nm",namespace="hn01",httpMethod="

OST",master="1",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[2m]))
IDC：资源池代码，如：北京、上海、深圳、新加坡（服务器资源）
fromSystem：泉源系统代码（哪个系统的指标数据）
instance：集群指标采集端点地址
namespace：定名空间，如：湖南集群1
nodeip：gateway所在物理机ip
podIp：gateway 在k8s上的pod ip
province：（内部）省份代码
58 -- 指标值：区间内（2分钟）有58次调用
场景二：近5分钟每分钟的均匀调用量

# 近5分钟每分钟的平均调用量
sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_count{IDC="gcgz_nm",namespace="hn01",httpMethod="POST",master="1",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[5m]))/5

复制代码

解析：增量/时间

场景三：近2分钟的调用均匀耗时

# 近2分钟的调用平均耗时
sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_sum{IDC="gcgz_nm",namespace="hn01",httpMethod="POST",master="1",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[2m]))/sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_count{IDC="gcgz_nm",namespace="hn01",httpMethod="POST",master="1",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[2m]))

复制代码

解析：sum/count，sum是耗时，count时调用量

场景四：近2分钟的调用成功率

# 近2分钟的调用成功率
sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_count{IDC="gcgz_nm",namespace="hn01",httpMethod="POST",master="1",httpStatusCode="200",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[2m]))/sum by(IDC,fromSystem,instance, namespace, app,cluster, podIp,nodeIp,province ) (increase(spring_cloud_gateway_requests_seconds_count{IDC="gcgz_nm",namespace="hn01",httpMethod="POST",master="1",routeId="ReactiveCompositeDiscoveryClient_ENGINE-OPENAPI-SERVICE"}[2m]))

复制代码

解析：分母表达式多了个条件：httpStatusCode="200"

解析：成功率等于1表示100%（存在四舍五入的可能）
常见问题FAQ

Q1:为什么promql 使用increase函数查14分钟的增量与15分钟的增量为什么相差甚远？

A：受时间窗口和采样间隔影响‌，可能产生较大偏差，如：某个时间点的指标丢失。增量就会是累计调用量（差了几个数量级）。现实有时间并不一定是14分钟和15分钟，可能是恣意时间点在其范围内查询增量正确，范围外不正确。所以增量尽量缩省范围（淘汰出错频率、但并不能做到彻底不出错）
举例：这里查1分钟照旧18分钟的增量都是准的，均匀每分钟的增量约30（次调用），但19分钟区间查增量就不准了（酿成了gateway的累计调用量400多万）
查近二分钟的gateway调用量指标增量数据

注意：查增量时时间区t>=2m（采集间隔的两陪时间），否则查不出数据
查近18分钟的gateway调用量指标增量数据

查近19分钟的gateway调用量指标增量数据（数据非常）

最佳办理方案：
1、使用表达式指标时丢掉较大的指标（如图中丢掉1000以上的指标）从普米采集时直接丢掉
2、使用普米原始指标配置告警时增加上限条件。
可能由以下缘故原由导致：

1. ‌时间窗口与采样间隔的匹配问题‌

increase() 函数基于时间序列数据的外推算法估算增量，其计算效果受‌时间窗口与数据采样间隔的倍数关系‌影响‌。
若采样间隔（如 1 分钟）与时间窗口（14 或 15 分钟）不成整数倍，会导致外推算法对首尾样本的修正系数不同。比方：
- 15 分钟窗口可能刚好覆盖整数倍的数据点（如 15 个 1 分钟样本），计算效果更正确‌。
- 14 分钟窗口可能因未完整覆盖数据周期，导致外推修正后的值与现实偏差较大‌。

2. ‌数据点对齐与停止问题‌

increase() 依赖时间窗口内的‌第一个和最后一个样本值‌计算增量‌。若时间窗口存在以下情况，可能导致效果波动：
- ‌数据采集停止‌：14 分钟内可能存在数据空白（如采集器故障），导致外推算法对缺失数据的赔偿不正确‌。
- ‌首尾样本非常‌：若首尾样本值因抖动或非常值突变，14 分钟窗口的短周期会放大这种波动，而 15 分钟窗口可能通过更多样本平滑非常‌。

3. ‌计数器重置（Counter Reset）的影响‌

Counter 范例指标在发生重置（如应用重启）时，increase() 会主动处置惩罚重置事故‌。
若 14 分钟窗口内发生‌多次重置‌，可能导致算法对外推增量的修正与 15 分钟窗口不同，进而造成差异‌。

4. ‌外推算法的修正系数差异‌

Prometheus 的 increase() 会对时间窗口边沿的样本进行外推修正，修正系数为时间窗口/采样间隔‌。
- 比方：假设采样间隔为 1 分钟，15 分钟窗口的修正系数为 15，而 14 分钟窗口为 14。两者修正后的增量可能因系数差异而显著不同‌。

建议办理方案

‌确保时间窗口是采样间隔的整数倍‌（如采样间隔 1 分钟时，使用 15 分钟而非 14 分钟）‌。
‌检查数据一连性‌：通过 up 指标或原始时序数据确认是否存在采集停止‌。
‌联合 rate() 验证‌：对比 rate(v[15m]) * 15 * 60 与 increase(v[15m])，观察外推算法的影响‌。
使用表达式指标时丢掉较大的指标（如图中丢掉1000以上的指标），从普米采集时直接丢掉
使用普米原始指标配置告警表达式时增加上限条件。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

PromQL计算gateway指标增量最佳实践及常见问题答疑

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块