Argo Workflow服务偶尔出现 pod deleted 错误,造成异步任务失败,需要人工介入修复,维护成本提高。
Argo Workflow
pod deleted
查询argo controller的日志是这样的,无法快速定位准确的原因:
argo controller
参考Argo Workflow官方的issue,找到比较有价值的issue:https://github.com/argoproj/argo-workflows/issues/5321
issue
从issue来看,我们的问题也比较符合,但本着严谨态度,我们需要准确的日志错误来准确定位根因,因此参考Kubernetes官网,我们打开AuditLog观察下:
Kubernetes
AuditLog
https://kubernetes.io/docs/tasks/debug/debug-cluster/audit/
但这个排查需要花一定时间,因此我们先按照issue描述的原因来快速解决问题。我们拿了几台机器,打上特殊的标签,并且让ArgoController只调度Pod到这几台机器上去。
ArgoController
Pod