monicazhang 发表于 2020-12-14 10:33:18

需要做哪些才能从SRE的角度去加监控

背景    今天来讨论一下监控应该如何添加,添加哪些,怎么添加。大家可能看到很多分享。大概分为三类,第一讲述自己的监控指标很多的,动辄几万指标就来了。第二是讲述trace工具的和全链路监控的。第三类就讲述核心指标的,最常见的就是讲述谷歌的黄金指标。    通过我这7年多的工作经验来跟大家分享一下,以上的观点我觉得都是非常正常的。对于每个人来说如何快速选择呢。如何把大家的思路整合在一起呢。   
如何去选择    关键点还是从目标出发,从业务需要出发。
    如果你现在的监控一无所有,那么你上来就搞各种trace工具,那也就本末倒置了。首先你要解决的是从无到有的过程。    如果你目前的指标已经可以覆盖90%以上的问题了,你还有一味追求监控覆盖度,去增加各种指标,那就是太刻意了。不仅浪费大量的时间,而且还是让人陷入一下牛角尖,我之前的一个公司有一段时间老板把KPI定义为了监控覆盖率,整个公司的监控暴增了好几倍,但是最终除了指标的提升之外,对业务实际的帮助并没有增加很多。
    如果你们的监控已经很完善了,但是就是定位问题会很慢,这个时候就是需要各种全链路工具,和trace工具出马的时候到了。如果你的监控指标和监控数据都没有那搞个trace工具其实没什么用,巧妇难为无米之炊。
    时机和节奏选择很重要,什么时候哪个事情,做好哪个事情。

如何去做    这里我总结的监控就是这个步骤在反复循环。我总结了四个字。核、全、精、久。
    第一阶段,一定要把握和梳理好核心指标。核心指标到底是哪些,然后把浓缩在核心指标,集中展示。一定要在一分钟之内能判断核心指标有没有波动,有没有异常。如果核心指标很多怎么办,一个大屏放不下,这个我后面会详细介绍。

    第二阶段,监控指标一定要全面,如果发现遗漏的要及时补充,那么如何保证全面的,这里我给一下我自己使用的一个单子可以对照来进行。一定要保证监控不遗漏。这个有个问题就来了很多人都在吐槽你几万个指标那肯定是你水平不够才需要这么多。其实我是不赞同这个观点的。数据多不可怕,可怕的是没有能力出处理和提前这些数据
    第三阶段,精通和深入,直接的体现就是全链路工具。但是有一个问题是必须知道的,每个业务的链路是很多的,而且不是完全一样的,所以一定把握其中的核心链路,如果工具无法统一的话,建议包括10个以内的核心链路。如果太多的话就容易扩散。我们既要做工具,但是也不能一味的把注意力定位在工具上。注意力还是要回归到业务。

    第四阶段,持续优化,如何让你的监控能持久呢,这个背后需要各种机制的保证。比如日常的巡检机制,报警机制,日周总结机制,问题复盘机制。通过各种机制来不断的打磨自己的监控体系。这一点非常重要,如果你的监控没有人使用,那么这个系统离下线就不远了。一定要扩容使用范围,一定要不断去优化,一定要给业务持续创造价值。


页: [1]
查看完整版本: 需要做哪些才能从SRE的角度去加监控