Versions Compared
Key
- This line was added.
- This line was removed.
- Formatting was changed.
告警梳理
梳理需要用于监控的指标以及规则。告警规则前置设定如下:
执行间隔:以
1
分钟作为默认的告警规则执行间隔。触发阈值:以连续
3
次达到触发阈值为前提才触发一次告警。阈值触发在未特殊提醒的前提下,统一使用>=
的计算方式。告警分级:告警分
3
个优先级,普通告警(info
)、严重告警(warn
)、致命告警(crit
),分别对应3
个不同的阈值。
以下告警阈值初始值为经验设定,在现网配置时会需要根据实际情况进行适当调整,并不断完善该文档。
集群纬度
告警名称 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
集群CPU使用率
重要程序:一般 | 集群的 单位 |
|
|
集群内存使用率
重要程序:一般 | 集群的内存使用率过高时,意味着需要排查个别容器是否有异常,抑或需要扩展节点资源。 单位 |
|
|
集群Pods使用率
重要程序:可有可无 | 每个 单位 该规则默认不启用。 |
|
|
节点纬度
告警名称 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
节点CPU使用率
重要程序:重要 |
单位 |
|
|
节点内存使用率
重要程序:重要 | 主机内存利用率高会导致进程响应慢。 单位 |
|
|
节点磁盘使用率
重要程序:可有可无 | 由于节点上挂载的磁盘比较多,我们并不需要关心所有挂载点的磁盘使用率,因此该规则默认不启用。 单位 | |
|
节点系统磁盘使用率
重要程序:重要 | 系统盘使用率过高会影响系统稳定性。 单位 |
|
|
磁盘
重要程序:重要 | 使用率如果达到 单位 | |
|
磁盘读延迟过高
重要程序:重要 | 影响磁盘内容读取。 单位 | |
|
磁盘写延迟过高
重要程序:重要 | 影响磁盘内容写入。 单位 | |
|
节点TCP每秒出包错误率
重要程序:重要 | 网络出入包错误率过高会严重影响数据面及管控面网络访问。
单位 |
|
|
节点TCP每秒入包错误率 alert.node.network.tcp.error_rate.in 重要程序:重要 | 网络出入包错误率过高会严重影响数据面及管控面网络访问。
单位 |
|
|
节点网络流量过大
重要程序:重要 | 流量过大可能会影响节点上所有进程的网络通信。原理是 单位 |
|
|
节点网络带宽使用率
重要程序:重要 | 流量过大可能会影响节点上所有进程的网络通信。原理是 单位 注意事项:
|
|
|
节点
重要程序:重要 | 主机上的 按照持续时间划分不同告警级别。 |
|
|
节点
重要程序:重要 |
| ||
节点
重要程序:重要 |
| ||
节点Pods使用率
重要程序:可有可无 | 每个 该规则默认不启用。 单位 |
|
|
节点异常关机或重启
重要程序:重要 | 节点5分钟内系统启动时间发生变化,可能发生异常关机或者重启,请注意查看。 |
|
|
容器纬度
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 |
---|---|---|---|---|
容器CPU使用率
重要程序:可有可无 | 前置条件:只有在容器配置了 单位 该规则默认不启用。 |
|
| |
容器内存使用率
重要程序:可有可无 | 前置条件:只有在容器配置了 单位 该规则默认不启用。 |
|
| |
容器磁盘使用率
重要程序:可有可无 | 由于容器内部的挂载点可能很多,并且在 单位 |
|
| |
容器持续 (该告警包含数据面容器)
重要程序:重要 | 通过
需要注意: 数据面的告警仅针对内核容器,按照container="khaos-biz"通用配置,并不关心业务Pod中的sidecar容器。 按照持续时间划分不同告警级别。 | 通过跳板机登录 | 管控面: 管控面容器处于异常状态,该容器提供的管控能力失效。 带
数据面: 数据面容器异常,会影响用户实例,请优先查看! 带
|
|
容器持续 (该告警包含数据面容器)
重要程序:重要 |
| |||
容器持续 (该告警包含数据面容器)
重要程序:重要 |
| |||
容器发生持续重启 (该告警包含数据面容器)
重要程序:重要 | 通过
需要注意:
| 通过跳板机登录 | 管控面:
数据面(非平台管控面空间):
|
|
Pod纬度
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 |
---|---|---|---|---|
Pod长期处于无法调度状态 (该告警包含数据面容器)
重要程序:重要 | Pod在一定时间内没有被调度成功,通常是Pod依赖没有满足要求,例如资源请求、亲和性等前置条件无法满足。 | 通过跳板机登录集群,使用 |
|
|
Pod PVC使用率 (该告警包含数据面容器)
重要程序:重要 | PVC对应的PV使用率高时,会影响存储,进而影响服务功能。 需要注意,数据面现网的PVC磁盘使用率都很高。 单位 | 清理或扩容PV磁盘。 |
|
|
Pod网络入流量过大 alert.pod.network.flow_rate.in 重要程序:一般 | 原理是 单位 |
|
| |
Pod网络出流量过大
重要程序:一般 | 原理是 单位 |
|
|
服务纬度
云巢组件
vmagent
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 |
---|---|---|---|---|
重要程序:一般 | 有部分集群的集群ID没有更新到 当集群ID配置错误时,可能会影响上层的告警通知、大盘展示,影响问题的准确定位。 该问题通常与集群ID配置错误一起出现。 | 首先在 如果无法找到,那么使用 |
|
|
重要程序:一般 | 有部分集群的产品标识没有更新到 当集群ID配置错误时,可能会影响上层的告警通知、大盘展示,影响问题的准确定位。 该问题通常与集群ID配置错误一起出现。 | 同上。 |
|
|
重要程序:重要 | 错误日志一段时间内增加过多,可能会影响监控采集能力。 单位 | 需要去控制台查看 |
|
|
重要程序:重要 | 当 单位 | 需要去控制台查看 |
|
|
Kubernetes组件
etcd
告警名称 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
重要程序:重要 | 表示 需要注意:TKE托管类型集群的 |
|
|
apiserver
告警英文名 | 告警描述 | 表达式 | 阈值设置 |
---|---|---|---|
重要程序:重要 |
单位 |
|
|
客户端向
重要程序:重要 |
单位 |
|
|
重要程序:重要 |
单位 |
|
|
参考资料
主机类
需要依赖node-exporter
。
节点CPU使用率
NodeCpuUsageRate
NodeCpuUsage
节点CPU使用量
NodeMemoryUsageRate
节点内存使用率
NodeMemoryUsage
节点内存占用量
NodeStorageUsageRate
节点磁盘使用率
NodeStorageUsage
节点磁盘使用量
NodeBytesSent
节点内网出流量
NodeBytesReceived
节点内网入流量
NodeBytesSentBandWidth
节点内网出带宽
NodeBytesReceivedBandWidth
节点内网入带宽
NodeStorageReadIOPS
节点硬盘读IOPS
NodeStorageWriteIOPS
节点硬盘写IOPS
NodeStorageReadFlow
节点硬盘读流量
NodeStorageWriteFlow
节点硬盘写流量
MetricNameNodeNetstatTCP
节点TCP连接数
容器类
需要依赖cadvisor
、kube-state
的exporter
。
pod
containerPanel | ||||
---|---|---|---|---|
| ||||
|