【每周一问第六十五期】IT部门该如何解决这个问题呢?
本帖最后由 先锋小编 于 2012-8-14 10:03 编辑案例背景: A公司的IT部门有三个子部门,即基础设施部、应用部和支持部,这三个部门的经理都直接向CIO报告。基础设施部采用自动化监控工具,对支持服务的各基础设施组件进行监控和测量,包括数据中心的温湿度、服务器的运行情况、网络流量等,在大多数情况下,在服务出现问题之前即可检测出故障,降低宕机时间。 但这些基础设施的监控数据报告给业务部门时,例如报告中描述:“邮件服务器的可用性达99.95%”,业务部门认为不仅从这个数据无法了解邮件服务的实际情况,因为有次发生网络中断时,有半天时间无法使用邮箱,邮件服务器的可用性达到99.95%并不能满足邮件服务的可用性达到99.95%,因此他们建议应提供相关的服务运行情况的测量信息。 IT部门该如何解决这个问题呢? :) 本帖最后由 nilewole2008 于 2012-8-14 10:41 编辑
邮件服务器的可用性达99.95%--- 这个指标相关还有些信息需要提供的。可用性测量的时间周期、在此周期里故障发生的总时长、故障次数。 少了这些必要的条件,这个99.95%就太虚了。呵呵。
当然还有些数据是需要掌握的,
例如
1)检测的时间周期,当然越频繁数据越精准啦。呵呵
2)故障影响范围。是所有用户都无法访问,还是部分用户无法访问。是全部功能无法访问,还是部分功能无法访问。
看颗粒度要多细了,按需裁剪。。
先说说我现在是怎么监控业务服务的。
通过梳理业务服务目录和技术服务目录,有服务台主动监控和响应故障请求记录业务服务的影响,计算阶段时间内的业务中断时间来计算业务的可用性。
未来会部署微软的SystemCenter产品组件中SCOM软件,配置基于业务监控的视图,如网站服务=IIS+SQL+网络+服务器硬件的可用性,定期生成报表。