- Created by 郭强, last modified on Sep 19, 2024
告警梳理
梳理需要用于监控的指标以及规则。告警规则前置设定如下:
执行间隔:以
1
分钟作为默认的告警规则执行间隔。触发阈值:以连续
3
次达到触发阈值为前提才触发一次告警。阈值触发在未特殊提醒的前提下,统一使用>=
的计算方式。告警分级:告警分
3
个优先级,普通告警(info
)、严重告警(warn
)、致命告警(crit
),分别对应3
个不同的阈值。
以下告警阈值初始值为经验设定,在现网配置时会需要根据实际情况进行适当调整,并不断完善该文档。
集群纬度
告警名称 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
集群CPU使用率
重要程序:一般 | 集群的 单位 |
|
|
集群内存使用率
重要程序:一般 | 集群的内存使用率过高时,意味着需要排查个别容器是否有异常,抑或需要扩展节点资源。 单位 |
|
|
集群Pods使用率
重要程序:可有可无 | 每个 单位 该规则默认不启用。 |
|
|
节点纬度
告警名称 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
节点CPU使用率
重要程序:重要 |
单位 |
|
|
节点内存使用率
重要程序:重要 | 主机内存利用率高会导致进程响应慢。 单位 |
|
|
节点磁盘使用率
重要程序:可有可无 | 由于节点上挂载的磁盘比较多,我们并不需要关心所有挂载点的磁盘使用率,因此该规则默认不启用。 单位 | |
|
节点系统磁盘使用率
重要程序:重要 | 系统盘使用率过高会影响系统稳定性。 单位 |
|
|
磁盘
重要程序:重要 | 使用率如果达到 单位 | |
|
磁盘读延迟过高
重要程序:重要 | 影响磁盘内容读取。 单位 | |
|
磁盘写延迟过高
重要程序:重要 | 影响磁盘内容写入。 单位 | |
|
节点TCP每秒出包错误率
重要程序:重要 | 网络出入包错误率过高会严重影响数据面及管控面网络访问。
单位 |
|
|
节点TCP每秒入包错误率 alert.node.network.tcp.error_rate.in 重要程序:重要 | 网络出入包错误率过高会严重影响数据面及管控面网络访问。
单位 |
|
|
节点网络流量过大
重要程序:重要 | 流量过大可能会影响节点上所有进程的网络通信。原理是 单位 |
|
|
节点网络带宽使用率
重要程序:重要 | 流量过大可能会影响节点上所有进程的网络通信。原理是 单位 注意事项:
|
|
|
节点
重要程序:重要 | 主机上的 按照持续时间划分不同告警级别。 |
|
|
节点
重要程序:重要 |
| ||
节点
重要程序:重要 |
| ||
节点Pods使用率
重要程序:可有可无 | 每个 该规则默认不启用。 单位 |
|
|
节点异常关机或重启
重要程序:重要 | 节点5分钟内系统启动时间发生变化,可能发生异常关机或者重启,请注意查看。 |
|
|
容器纬度
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 |
---|---|---|---|---|
容器CPU使用率
重要程序:可有可无 | 前置条件:只有在容器配置了 单位 该规则默认不启用。 |
|
| |
容器内存使用率
重要程序:可有可无 | 前置条件:只有在容器配置了 单位 该规则默认不启用。 |
|
| |
容器磁盘使用率
重要程序:可有可无 | 由于容器内部的挂载点可能很多,并且在 单位 |
|
| |
容器持续 (该告警包含数据面容器)
重要程序:重要 | 通过
需要注意: 数据面的告警仅针对内核容器,按照container="khaos-biz"通用配置,并不关心业务Pod中的sidecar容器。 按照持续时间划分不同告警级别。 | 通过跳板机登录 | 管控面: 管控面容器处于异常状态,该容器提供的管控能力失效。 带
数据面: 数据面容器异常,会影响用户实例,请优先查看! 带
|
|
容器持续 (该告警包含数据面容器)
重要程序:重要 |
| |||
容器持续 (该告警包含数据面容器)
重要程序:重要 |
| |||
容器发生持续重启 (该告警包含数据面容器)
重要程序:重要 | 通过
需要注意:
| 通过跳板机登录 | 管控面:
数据面(非平台管控面空间):
|
|
Pod纬度
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 |
---|---|---|---|---|
Pod长期处于无法调度状态 (该告警包含数据面容器)
重要程序:重要 | Pod在一定时间内没有被调度成功,通常是Pod依赖没有满足要求,例如资源请求、亲和性等前置条件无法满足。 | 通过跳板机登录集群,使用 |
|
|
Pod PVC使用率 (该告警包含数据面容器)
重要程序:重要 | PVC对应的PV使用率高时,会影响存储,进而影响服务功能。 需要注意,数据面现网的PVC磁盘使用率都很高。 单位 | 清理或扩容PV磁盘。 |
|
|
Pod网络入流量过大 alert.pod.network.flow_rate.in 重要程序:一般 | 原理是 单位 |
|
| |
Pod网络出流量过大
重要程序:一般 | 原理是 单位 |
|
|
服务纬度
云巢组件
vmagent
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 |
---|---|---|---|---|
重要程序:一般 | 有部分集群的集群ID没有更新到 当集群ID配置错误时,可能会影响上层的告警通知、大盘展示,影响问题的准确定位。 该问题通常与集群ID配置错误一起出现。 | 首先在 如果无法找到,那么使用 |
|
|
重要程序:一般 | 有部分集群的产品标识没有更新到 当集群ID配置错误时,可能会影响上层的告警通知、大盘展示,影响问题的准确定位。 该问题通常与集群ID配置错误一起出现。 | 同上。 |
|
|
重要程序:重要 | 错误日志一段时间内增加过多,可能会影响监控采集能力。 单位 | 需要去控制台查看 |
|
|
重要程序:重要 | 当 单位 | 需要去控制台查看 |
|
|
Kubernetes组件
etcd
告警名称 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
重要程序:重要 | 表示 需要注意:TKE托管类型集群的 |
|
|
apiserver
告警英文名 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
重要程序:重要 |
单位 |
|
|
客户端向
重要程序:重要 |
单位 |
|
|
重要程序:重要 |
单位 |
|
|
参考资料
- No labels