一、问题背景

Argo Workflow服务偶尔出现 pod deleted 错误,造成异步任务失败,需要人工介入修复,维护成本提高。

二、排查经过

1、Argo 日志

查询argo controller的日志是这样的,无法快速定位准确的原因:

2、Argo Issue

参考Argo Workflow官方的issue,找到比较有价值的issuehttps://github.com/argoproj/argo-workflows/issues/5321

3、Kubernetes Audit Log

issue来看,我们的问题也比较符合,但本着严谨态度,我们需要准确的日志错误来准确定位根因,因此参考Kubernetes官网,我们打开AuditLog观察下:

https://kubernetes.io/docs/tasks/debug/debug-cluster/audit/

但这个排查需要花一定时间,因此我们先按照issue描述的原因来快速解决问题。我们拿了几台机器,打上特殊的标签,并且让ArgoController只调度Pod到这几台机器上去。


三、解决方案










Content Menu

  • No labels