【前言】 在笔者接触的同行中,使用Zabbix去监控WEB站点,小伙伴少之又少。是客官要求高,还是Zabbix不够骚? 本篇文章介绍如何配置Zabbix[Web monitoring],以及如何监控站点可用性。
❖ 0x01 Web monitoring ❖ 配置实例
Web站点监控核心是curl,所以请确保服务器安装了libcurl。站点可用性监控思路:监控场景,检测到场景有异常推送告警。一般是指定链接,指定关键字,当这个链接不包含关键字时触发异常告警,下面是笔者生产环境中多步骤的配置实例演示:
❖ 0x02 Trigger配置 ❖ 正确的告警姿势!
针对Web监控告警遇到的一些坑,与大家分享笔者配置上的建议。
▲ 监控哪个Trigger ?
笔者一路摸爬滚打,发现一项最佳监控告警指标! web.test.fail[web场景] 起初监控的是状态码,但是后来发现有站点虽然请求是成功的。但是站内有些应用是已经无法使用的。后来发现了web.test.fail 这个项是针对整个场景,场景每个场景异常返回1。 ………………………
▲ 网络抖动怎么办 ? 在监控过程中,难免遇到网络抖动,造成误报,虚惊一场,针对这个问题处理方法:
{Template Web:web.test.fail[g.cn].sum(#3)}>2 该配置为三次请求中,有两个以上的步骤异常则告警。这样配置可以避开突发性网络抖动造成误报的情况,当然,抖很多下那肯定有问题的,hahahah。
………………………
▲ 大规模报警怎么办 ?
当服务器有问题时,往往多个项目会同时告警,造成多规模信息轰炸,关于这个问题处理方法:
Dependencies
使用Dependencies关联首页或主机,表示当这个关联项有问题时,这个Trigger不发送告警。
………………………
❖ 0x03 站点故障告警 ❖ WeChat / PhoneCall
站点不可用,为互联网企业最严重最紧急的故障,需要运维人员紧急处理排除故障。在这个时候,告警及不及时显得尤为重要,一些必要的辅助信息也是可以帮助运维人员快速定位问题。
▲ 下图为笔者微信告警通知及部分代码展示
原创:数睿技术 |