monicazhang 发表于 2015-11-6 11:22:38

ITSS监控平台和自动化运维平台目前存在的问题

本帖最后由 monicazhang 于 2015-11-6 11:22 编辑

20151106 淡然续上



3.4   运维支撑3.4.1                现状描述 除了ITSM流程管理系统外,支撑某公司IT运维工作的还包括监控平台和自动化运维平台,以“集中交易系统”为例,其集中监控平台:n集成标准监控指标和自定义的业务监控指标;                              ITSS考试 n事件以文字、颜色、声音报警,通过短信通知等方式发送给当事人;n以多种维度进行组合视图展示;n性能记录在数据库,便于分析和改进。图 3.6 集中交易系统——集中监控平台
其自动化运维平台:n操作自动化:开闭市流程一键执行、定时自动执行任务、批量升级打系统补丁等、系统批量重启等,同时将执行结果的成功或失败信息以图形化的形式展现;n健康检查:手工批量或自动地对应用的所有关键环节进行巡检,可以生成检查记录和报告;n应急管理:管理应急过程的自动化脚本、动作录制等,提供主备快速一键式切换功能,提高切换的质量和效率;n模拟业务检查:发送正常的业务操作,检查业务是否结果正常(主要是用测试账号做查询或废单业务等);n统一门户:可集成在公司的门户网站、VPN或IT运营平台等,可统一登录和认证;n展示大屏:对执行过程,应用状态直观显示,如仪表盘等显示方法。图 3.7 集中交易——自动化运维平台
3.4.2                关键发现 在前期的访谈调研中,有集中交易系统管理员担心“有的系统管理员对自动化报警缺乏关心,系统已报警,短信邮件推出后,仍不处理。”同时,对于自动化系统而言,“自动化系统控制系统较多,当自动化系统故障时,所有系统需恢复手工操作,需各系统管理员有应急手段,并定期演练手工启动。”在访谈过程中,我们对集中交易系统的自动化运维任务也做了相关统计:                  ITSS认证 表 3‑4 自动化运维任务统计
任务名称
执行时间
手动操作文档
与实际步骤一致
手动执行时间
及时更新操作文档
操作成败标志

开市业务
7:54-9:14


110min



闭市业务
3:14-17:05


110min



日常维护
视任务不同而不同


N/A



巡检报表
5分钟


25min



系统升级
15分钟,视升级不同而不同


120min



业务模拟
一般在5分钟内执行完毕


15min



定时任务
视任务不同而不同


N/A



应急切换
基本单个切换在5分钟之内


15min



通过上表可以看出,在自动化系统无法完成任务时,手动执行确实需要花费较多时间,在手动操作文档完备并及时更新的条件下,管理员的操作熟练程度将是应对此类风险的关键。                                       ITSS培训




待续http://ITIL-foundation.cn/thread-52995-1-1.html本帖关键字:ITSS
页: [1]
查看完整版本: ITSS监控平台和自动化运维平台目前存在的问题