- Created by 郭强, last modified on Sep 19, 2024
You are viewing an old version of this page. View the current version.
Compare with Current View Page History
« Previous Version 6 Current »
告警梳理
梳理需要用于监控的指标以及规则。告警规则前置设定如下:
执行间隔:以
1
分钟作为默认的告警规则执行间隔。触发阈值:以连续
3
次达到触发阈值为前提才触发一次告警。阈值触发在未特殊提醒的前提下,统一使用>=
的计算方式。告警分级:告警分
3
个优先级,普通告警(info
)、严重告警(warn
)、致命告警(crit
),分别对应3
个不同的阈值。
以下告警阈值初始值为经验设定,在现网配置时会需要根据实际情况进行适当调整,并不断完善该文档。
告警配置
对接中台告警的配置
excel
地址:公有云星云配置地址:https://qcloud.woa.com/v3/platform/alarmSystem/alarmSubscribe
集群纬度
告警名称 | 告警描述 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|
集群CPU使用率
重要程序:一般 | 集群的 单位 |
|
|
|
集群内存使用率
重要程序:一般 | 集群的内存使用率过高时,意味着需要排查个别容器是否有异常,抑或需要扩展节点资源。 单位 |
|
|
|
集群Pods使用率
重要程序:可有可无 | 每个 单位 该规则默认不启用。 |
|
|
|
节点纬度
告警名称 | 告警描述 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|
节点CPU使用率
重要程序:重要 |
单位 |
|
|
|
节点内存使用率
重要程序:重要 | 主机内存利用率高会导致进程响应慢。 单位 |
|
|
|
节点磁盘使用率
重要程序:可有可无 | 由于节点上挂载的磁盘比较多,我们并不需要关心所有挂载点的磁盘使用率,因此该规则默认不启用。 单位 | |
|
|
节点系统磁盘使用率
重要程序:重要 | 系统盘使用率过高会影响系统稳定性。 单位 |
|
|
|
磁盘
重要程序:重要 | 使用率如果达到 单位 | |
|
|
磁盘读延迟过高
重要程序:重要 | 影响磁盘内容读取。 单位 | |
|
|
磁盘写延迟过高
重要程序:重要 | 影响磁盘内容写入。 单位 | |
|
|
节点TCP每秒出包错误率
重要程序:重要 | 网络出入包错误率过高会严重影响数据面及管控面网络访问。
单位 |
|
|
|
节点TCP每秒入包错误率 alert.node.network.tcp.error_rate.in 重要程序:重要 | 网络出入包错误率过高会严重影响数据面及管控面网络访问。
单位 |
|
|
|
节点网络流量过大
重要程序:重要 | 流量过大可能会影响节点上所有进程的网络通信。原理是 单位 |
|
|
|
节点网络带宽使用率
重要程序:重要 | 流量过大可能会影响节点上所有进程的网络通信。原理是 单位 注意事项:
|
|
|
|
节点
重要程序:重要 | 主机上的 按照持续时间划分不同告警级别。 |
|
|
|
节点
重要程序:重要 |
|
| ||
节点
重要程序:重要 |
|
| ||
节点Pods使用率
重要程序:可有可无 | 每个 该规则默认不启用。 单位 |
|
|
|
节点异常关机或重启
重要程序:重要 | 节点5分钟内系统启动时间发生变化,可能发生异常关机或者重启,请注意查看。 |
|
|
|
容器纬度
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|---|
容器CPU使用率
重要程序:可有可无 | 前置条件:只有在容器配置了 单位 该规则默认不启用。 |
|
|
| |
容器内存使用率
重要程序:可有可无 | 前置条件:只有在容器配置了 单位 该规则默认不启用。 |
|
|
| |
容器磁盘使用率
重要程序:可有可无 | 由于容器内部的挂载点可能很多,并且在 单位 |
|
|
| |
容器持续 (该告警包含数据面容器)
重要程序:重要 | 通过
需要注意: 数据面的告警仅针对内核容器,按照container="khaos-biz"通用配置,并不关心业务Pod中的sidecar容器。 按照持续时间划分不同告警级别。 | 通过跳板机登录 | 管控面: 管控面容器处于异常状态,该容器提供的管控能力失效。 带
数据面: 数据面容器异常,会影响用户实例,请优先查看! 带
|
|
|
容器持续 (该告警包含数据面容器)
重要程序:重要 |
|
| |||
容器持续 (该告警包含数据面容器)
重要程序:重要 |
|
| |||
容器发生持续重启 (该告警包含数据面容器)
重要程序:重要 | 通过
需要注意:
| 通过跳板机登录 | 管控面:
数据面(非平台管控面空间):
|
|
|
Pod纬度
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|---|
Pod长期处于无法调度状态 (该告警包含数据面容器)
重要程序:重要 | Pod在一定时间内没有被调度成功,通常是Pod依赖没有满足要求,例如资源请求、亲和性等前置条件无法满足。 | 通过跳板机登录集群,使用 |
|
|
|
Pod PVC使用率 (该告警包含数据面容器)
重要程序:重要 | PVC对应的PV使用率高时,会影响存储,进而影响服务功能。 需要注意,数据面现网的PVC磁盘使用率都很高。 单位 | 清理或扩容PV磁盘。 |
|
|
|
Pod网络入流量过大 alert.pod.network.flow_rate.in 重要程序:一般 | 原理是 单位 |
|
|
| |
Pod网络出流量过大
重要程序:一般 | 原理是 单位 |
|
|
|
服务纬度
云巢组件
khaos-alleyway
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|---|
重要程序:重要 |
单位 |
|
|
|
khaos-workflow/argo
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|---|
重要程序:重要 |
单位 | 登录 |
|
|
|
vmagent
告警名称 | 告警描述 | 处理方式 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|---|
重要程序:一般 | 有部分集群的集群ID没有更新到 当集群ID配置错误时,可能会影响上层的告警通知、大盘展示,影响问题的准确定位。 该问题通常与集群ID配置错误一起出现。 | 首先在 如果无法找到,那么使用 |
|
|
|
重要程序:一般 | 有部分集群的产品标识没有更新到 当集群ID配置错误时,可能会影响上层的告警通知、大盘展示,影响问题的准确定位。 该问题通常与集群ID配置错误一起出现。 | 同上。 |
|
|
|
重要程序:重要 | 错误日志一段时间内增加过多,可能会影响监控采集能力。 单位 | 需要去控制台查看 |
|
|
|
重要程序:重要 | 当 单位 | 需要去控制台查看 |
|
|
|
Kubernetes组件
etcd
告警名称 | 告警描述 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|
重要程序:重要 | 表示 需要注意:TKE托管类型集群的 |
|
|
|
apiserver
告警英文名 | 告警描述 | 表达式 | 阈值设置 | 告警方式 |
---|---|---|---|---|
重要程序:重要 |
单位 |
|
|
|
客户端向
重要程序:重要 |
单位 |
|
|
|
重要程序:重要 |
单位 |
|
|
|
TCS中间件告警
复用TCS告警规则,仅在TCS场景下有效,具体请参考文档:https://iwiki.woa.com/p/4009965831
告警范围
平台管控面告警
数据库平台管控面默认负责集群稳定性监控告警,包括集群维度、节点维度、平台管控组件及Kubernetes基础管控组件的监控告警。其中命名空间只监控以下空间:
khaos
kube-system
argo
obs
因此label filter
使用 namespace=~"argo|khaos|obs|kube-system"
。
默认数据面告警
数据库平台默认会对数据面的实例状态进行告警,如:
实例一段时间内(
10m
)处于CrashLoopBackOff
、Pending
等状态时。实例持续重启,如
5m
内重启5
次以上。
默认数据面告警依靠内核容器名称container="khaos-biz"
识别(其中khaos-biz
为业务对接云巢时规范的内核容器名称),不关注sidecar
状态。
业务管控面及自定义告警
业务管控面的监控告警以及其他自定义的告警需要业务自行添加,具体有相关接入文档:
参考资料
- No labels