Prometheus 大量读操作

故障现象

Prometheus 的读请求无故瞬间激增。

故障排查

重启 Prometheus 后解决,后续需要跟进看是否还会继续发生

当使用 Grafana 查询 30 天的指标时,Prometheus 的读请求就会激增:

怀疑可能是 Grafana 与 Prometheus 之间的连接没有中断,持续查询导致,但是暂无证据

1 月 20 日早晨进行 30 天查询后再次出现该问题,添加 netfilter 规则,阻断 grafana 与 prometheus 问题依旧;使用 docker 重启 prometheus 容器问题依旧;删除 grafana 问题依旧。

故障处理

实际上是由于每次评估规则时,有很多条规则的表达式是 30 天的范围表达式导致的。


最后修改 July 23, 2024: clearup observability (4b9f5578)