You are viewing an old version of this page. View the current version.

Compare with Current View Page History

Version 1 Next »

背景介绍

笔者编写的一个监控采集上报程序部署遇到了频繁OOM的问题,之前一直在赶业务需求,虽然知道这块存在一些优化空间,但是一直没有时间去改进完善。终于在交付给客户后由于其他问题的诱发导致了OOM即便增加资源也不可解决,因此将此问题提高了优先级来解决,将其他事情放一放。

这个监控采集程序实现了秒级监控的能力,但基础监控指标需要来源于其他开源组件或者服务,比如:

  • 容器监控数据来源于kubelet中内置的cadvisor数据,通过https请求kubelet而来。
  • kubelet自身的监控数据同样来源于kubelet,通过https请求kubelet而来。
  • 集群状态数据来源于独立部署的开源组件kube-state-metrics而来,通过https请求kube-state-metrics服务地址而来。

这3项数据均涉及到远程访问,并且这些基础指标拿到后根据不同的业务会有独立的plugin接口注册,用于实现各自独立的数据面监控指标。由于涉及到数据面监控指标,因此这些基础监控数据非常重要,容不得丢失。










Content Menu

  • No labels