irate
和rate
都会用于计算某个指标在一定时间间隔内的变化速率。但是它们的计算方法有所不同:irate
取的是在指定时间范围内的最近两个数据点来算速率,而rate
会取指定时间范围内所有数据点,算出一组速率,然后取平均值作为结果。
所以官网文档说:irate
适合快速变化的计数器(counter
),而rate
适合缓慢变化的计数器(counter
)。
根据以上算法我们也可以理解,对于快速变化的计数器,如果使用rate
,因为使用了平均值,很容易把峰值削平。除非我们把时间间隔设置得足够小,就能够减弱这种效应。
rate
该函数用来计算某个指标在最近一个区间时间内的变化率,它只能用来计算Counter
类型的指标。
比如说,Prometheus
每15
秒采集一次数据,当某个指标metric1
的数据采集如下:
timestamp | value |
... | ... |
15:00:00 | 10000 |
15:00:15 | 10030 |
15:00:30 | 10045 |
15:00:45 | 10090 |
假设当前时间为15:00:50
,我们执行PromQL语句rate(metric1[1m])
,该语句的返回值为2
,计算过程如下:
Prometheus
会查找PromQL
语句执行时,1m
内(14:59:51 - 15:00:50)
该指标的采集点,找到如上四个采集点,然后用该区间最后一个采集点与第一个采集点的value
差,除以两个采集点的时间差(秒),即(10090-10000)/(15:00:45-15:00:00)=2
。
需要注意的是,时间区间的值至少要为采样间隔的两倍,因为只有这样才能保证时间区间内有两个采样点。比如上面的例子中,假设时间区间设为29
秒,PromQL
语句的执行时间为15:00:59.99
秒,那么它会查找[15:00:30.99, 15:00:59.99]
时间内的采集点,发现只有一个,那么就没有办法计算,就会报No datapoints found
的错误。
irate
该函数与rate
函数不同的是,它是用区间内的最后一个采集点与倒数第二个采集点的value
差,除以两个采集点的时间差。即15:00:50
执行语句irate(metric1[1m])
时,计算出来的值为(10090-10045)/(15:00:45-15:00:30)=3
参考链接