本帖最后由 monicazhang 于 2015-8-27 13:48 编辑
20150827 淡然 续上
2.3 流程执行框架2.3.1 流程总图某公司的运维管理流程可以从上图所示的6个运维管理的方面进行考虑: ITSS考试 · IT事件管理 · 错误管理 · 备份与恢复 · 存储管理 · 作业管理 · 操作安全 在下面的章节中将详细论述。
依据运维管理要素图,我们考虑如上图所示的某公司运维管理流程总图,下表对活动进行描述。运维管理中的6个方面的内容内部流程关系不紧密,所以可以按照6个独立的子流程进行阐述。 编号
| 管理活动
| 描述
| 5.3.1
| IT事件管理
| IT事件管理是运维管理流程中负责事件的检测、隔离、改正和解决的子流程。 事件管理的目的是当事件发生时尽快恢复服务,而不是找到问题发生的根本原因。
| 5.3.2
| 错误管理
| 错误管理是运维管理流程中负责错误的检测、隔离、改正和解决的子流程。 错误管理是从现象类似的事件中找到引起事件发生的根本原因,然后解决并恢复正常的服务。
| 5.3.3
| 作业管理
| 管理安装和配置作业,并排定时间表; 用户管理、系统管理、网络管理及数据库管理所需的操作流程;
| 5.3.4
| 备份与恢复管理
| 负责备份与恢复的操作流程
| 5.3.5
| 存储管理
| 监测和配置存储设备以及存储企业数据所需的工具
| 5.3.6
| 操作安全管理
| 管理和控制运维安全的所有方面
|
2.3.2 流程分解图2.3.2.1 IT事件管理
编号
| 管理活动
| 描述
| 5.3.1.1
| 事件监测
| 观察IT服务和基础架构,监测不正常的情况和现象
| 5.3.1.2
| 事件诊断
| 找到出现不正常现象的CI,或CI中的组件
| 5.3.1.3
| 事件记录
| 收集和记录与事件相关CI的状态变更通知
| 5.3.1.4
| 事件过滤
| 分析收集到的信息,决定是否需要采取相应的行动,以及要采取行动所需要的时间
| 5.3.1.5
| 确定事件关联和升级上报
| 识别是否有其他类似或相关的事件曾经发生,可以和此次事件一并解决。评估并向突发事件管理流程报告和升级上报事件的严重性和影响程度
| 5.3.1.6
| 事件解决
| 改正不正常的事件,并恢复正常操作,尽量采用自动化的纠错措施 ITSS认证
| 5.3.1.7
| 结束事件
| 清除和关闭事件以及与之相关的突发事件
| 5.3.1.8
| 事件生命周期管理
| 确保所有的事件生命周期阶段是有效的、高效率的以及持续提高的
| 5.3.1.9
| 事件报告
| 记录、分析和报告所有相关的事件
|
2.3.2.2 错误管理
编号
| 管理活动
| 描述
| 5.3.2.1
| 错误监测
| 维护和检查事件和错误日志,试图从事件中发现问题
| 5.3.2.2
| 错误通知
| 接受错误通知、警告和告警信息
| 5.3.2.3
| 错误分析
| 隔离受影响的CI并识别和跟踪错误。有可能的情况下,可升级至突发事件管理
| 5.3.2.4
| 错误解决
| 执行诊断测试,并解决和纠正错误
|
2.3.2.3 作业管理
编号
| 管理活动
| 描述
| 5.3.3.1
| 确定作业需求
| 确定运维管理中如数据库维护、存储管理、批处理等作业的需求以及作业的操作时间、时长、频度和相互依赖关系
| 5.3.3.2
| 作业调度
| 依据上述确定的所有的作业及其需求,考虑作业间的冲突和依赖关系,制定作业调度时间表
| 5.3.3.3
| 作业分发
| 将上述作业任务分配给相应的角色和人员来负责或执行作业
| 5.3.3.4
| 作业控制
| 作业的执行过程进行监测并控制其执行状况
| 5.3.3.5
| 资源监控
| 对资源的利用率、性能等参数进行监控,并记录入性能数据库中
| 5.3.3.6
| 作业报告
| 对比SLA,采用相应的运维指标评价作业的执行效果,对作业执行状况制定报告,向管理层汇报作业执行效果
|
2.3.2.4 备份与恢复编号
| 管理活动
| 描述
| 5.3.4.1
| 建立备份与恢复计划
| 调研备份需求,确定备份与恢复策略。确定备份和恢复所用的设备及工具。
| 5.3.4.2
| 安排备份事件表
| 决定哪些数据或系统需要备份,何时备份,备份的频度如何等。安排备份事件表应与作业管理时间表统筹考虑。
| 5.3.4.3
| 备份检查
| 检查备份数据的完整性和一致性。
| 5.3.4.4
| 存储和备份介质管理
| 备份介质应异地存放在安全可靠的地方,介质的利用率应达到合理的水平。
| 5.3.4.5
| 数据恢复
| 当出现数据丢失时,将数据恢复。
|
2.3.2.5 存储管理
编号
| 管理活动
| 描述
| 5.3.5.1
| 预测未来存储需求
| 基于未来的业务量、用户数等信息,预测未来数据量,并进一步预测所需的各种存储类型的存储需求
| 5.3.5.2
| 确定存储管理计划
| 依据预测的存储需求,结合目前的存储状况,制定存储管理计划
| 5.3.5.3
| 监控存储资源
| 监控存储资源的空间利用率、使用频度等指标,为进一步优化存储计划提供数据
| 5.3.5.4
| 数据记录与分析
| 将监控的数据记录,并作出分析,找出关键指标的变化趋势,为优化存储计划提出建议
|
2.3.2.6 操作安全
编号
| 管理活动
| 描述
| 5.3.6.1
| 安全设计与计划
| 基于安全管理流程中对整体IT安全的设计与计划,设计与运维操作相关的安全计划
| 5.3.6.2
| 安全计划的实施
| 在IT部门实施安全计划
| 5.3.6.3
| 安全监测
| 监测、核实并跟踪安全计划的实施效果,对比运维操作安全计划
| 5.3.6.4
| 安全控制
| 控制和管理所有对IT服务和基础架构的访问
|
2.4 流程主要考核指标利用整合的指标数据来确定流程改进的机会,以确保流程的有效性和高效性。下面就是有效测量运维管理流程输出的典型指标。需注意以下几点: · 指标必须是可测量的; · 指标必须能够反映流程的活动(已完成了多少工作?)流程质量(做的质量怎样?)、流程操作(检查和计划工作)。根据组织的需要,指标可以分为硬指标(必须达到)和软指标(最好达到) 不同时间点的性能应能够进行比较。建议某公司采用以下指标:(注:*为重要指标) · *告警信息的数量 ,即反映了流程质量 · 备份介质的数量反映了备份工作量的大小 · *备份引起的平均服务停止时间反映备份流程的效率,即反映了流程质量) · 支持用户的数量反映流程支持的工作量的大小 · 分配的IP地址的数量反映网络维护管理的工作量 · 管理的数据库的数量、大小和类型反映数据库维护的工作量 · E-mail用户数量反映OA维护工作量 · *监测出的安全隐患数量,即反映了流程质量 · 已解决的问题数量,即反映了流程质量以及工作量大小 ITSS培训 · *预防性维护引起的停机时间,即反映了流程质量 · 特定时间段内运维人员接受培训的比例,即反映了流程工作量大小
本帖关键字:ITSS |