×

扫描二维码登录本站

关于IT运维管理——互联网公司怎么样评估IT运营水平?
前言
本文是衡量IT运营水平系列文之一,旨在:
  • 阐述在云计算时代,如何客观合理的评估一个企业IT运营的水平
  • 详细阐述超级互联网公司的内部IT运营水平评估指标以及算法
  • 提供指标数据的获取来源

您现在的IT运营水平处在什么阶段?
作为一个互联网企业或者一个正在尝试互联网+的传统行业,IT 基础设施是其搭建上层业务的核心要素,而其的运维负责人(运维总监或者 CIO 们),通常在岗位定义中属于后端支撑部门,永远处于镁光灯的背面。
这样的定位和IT基础设施的重要程度其实产生了一种怪异的矛盾。
原因是多层次的,但有一种原因却是客观存在的:即对于后端 IT 基础设施的交付和运营水平,企业的 CEO 们无法客观合理的评估其行业先进性,从而无法评估运维团队的工作表现,只能通过故障多和少这一简单数据来予以奖励和惩罚。
然而可悲的是,不出故障的系统是不可能的,因此运维人员被打上要么默默无闻,要么罚款开除的宿命 LOGO。

本文作者有在 BAT 超过 10 年的 IT 运营负责经验,且对于国内一线云计算公司的运营团队以及运营水准有深入的了解,尝试通过介绍 BAT 这样超级互联网公司和一线云计算公司如何评估其 IT 运营水平,从而梳理出行业的一个客观公开的标准。
一旦该标准确立,则将有助于运维人员和其公司负责人评估 IT 运营水平,从而进一步提升高绩效的运维团队的岗位含金量,推进整个 IT 行业的发展。
评估IT运营水平的几个核心要素
我们对于核心要素有如下两个准入标准:
  • 和运营的实际效果密切相关
  • 尽可能回归为量化数据,且此数据可以相对公平的横向对比

按照上述准入标准,在超级互联网公司归纳为如下 4 个大类,各个大类之中又分为若干子类别,用以在评估公司总体 IT 运营水平的同时,又能评估各个子团队的绩效水平。
  • 可用性
  • 成本
  • 效率
  • 技术先进性

100分的水平 = 可用性50% + TCO20% + 效率20% + 技术创新10%
上面提到的四类核心要素的细分指标说明如下。
1、可用性
可用性 = 1 - 服务不可用时间/服务总时间
在超级互联网公司,通常业务可用性的保底要求是 99.5%。而核心业务的可用性目标通常设置为 99.9% 或者 99.99%。
而整体业务可用性指标又可以按 case trace 的思路拆分成如下 4 类可用性指标:
  • 程序可用性
  • 安全可用性
  • 网络可用性:其中又可以拆分为自有网络可用性;运营商网络可用性;负载均衡等网络产品可用性
  • 服务器可用性:其中又可以细化为服务器整体故障率;单品牌故障率以及部件故障率


业界不少公司会采用 MTTR(Mean Time To Repair),MTTF Mean Time To failures),MTBF(Mean Time Between Failure)来作为一部分考量指标,但在超级互联网公司的运维部门,反而不常用该类指标。
逻辑其实也相当简单:一切指标围绕自身需要,最能反映现实问题,并且最能帮助拆分后优化问题。
2、成本
在超级互联网公司已经一致采用 TCO 作为总成本的考量。前期为了客观考量,先剔除水平偏离度高的人员薪酬数据,我们通常把 TCO 的算法按如下计算:

在超级互联网公司,如果把单台服务器 TCO 作为一个不断 trace 的成本业绩指标,最新的单台 TCO 数据可以做到 15000 元人民币/年/台。

其中:
  • 服务器采购成本可以量化为单服务器平均单价。
  • 网络设备采购成本可以量化为单端口平均单价。
  • 布线成本可以量化为单端口平均单价。
  • IDC 租用成本可以量化为单服务器平均单价。
    关于IDC 租用成本,需要额外注意的是:

    • 如果一个 16A 的机柜月定价为 8000 元,则客观衡量的单价应该为该机柜实际放置了 10 台服务器,则单价为 8000/10;
    • 如果一个机柜放置了 10 台,一个机柜放置了 12 台,则平均单价应该为(8000+8000)/(10+12)。

  • 带宽成本可以量化为单 G 平均单价。
  • 软件成本可以量化为单服务器平均单价。
  • 外包服务成本可以量化为单服务器平均单价。

3、效率
总指标为上线效率,修复效率和资源使用效率。
上线效率即从业务需求提出到业务正式上线的效率,其中又可以拆分为:
  • 预算效率:从内部预算开启,业务部门提出需求到预算审批通过的时间效率
  • 采购效率:从预算确认到采购流程完毕,供应商开始正式接单的时间效率
  • 到货效率:从供应商接单到服务器到货的时间效率
  • 上架效率:从服务器到货到服务器完全上架的效率(包含捆扎网线电源线,以及电源通电)
  • 安装效率:从安装操作系统到具备交付业务的时间效率
  • 部署效率:从业务接收服务器资源到业务正式上线的效率

修复效率即从故障发生到故障修复的时间效率,其中又可以拆分为:
  • 故障报出效率:从故障发生到监控系统报出的时间
  • 故障接手效率:从故障报出到运维人员接手处理的时间
  • 故障定位效率:从运维人员接手到定位故障的时间
  • 故障修复效率:从运维人员接手到故障修复的时间

业务交付效率和故障修复效率是两个常见概念,但是 在超级互联网公司,对于资源使用效率也非常之关注,因为此类效率数据和成本关系极大,并且也能客观反映一个 IT 运营团队的技术水平以及精细化的运营能力。
资源使用效率主要为 CPU,IO 和存储的利用率。CPU 利用率主要考虑计算资源,通常以平均峰值使用率和平均使用率作为 2 个衡量指标。
在超级互联网公司,平均 CPU 峰值使用率可以超过 40%。
4、技术先进性
技术先进性指标包括如下:
  • 知识产权数量
  • PAPER 数量:尤其在意国外一级会议的 PAPER
  • 开源社区贡献:例如阿里巴巴对于开源社区的贡献
  • 技术创新性:强调别人没有而你有的那部分:例如百度全球首款 ARM
  • 服务器的商用;例如百度通过机器学习预测磁盘故障率;例如腾讯的模块化数据中心设计
  • 生态合作程度:例如 BAT 天蝎组织的创建

核心要素如何记录和评估?
按照第二部分的拆解,一个超级互联网公司的 IT 运营水平考量要素,大指标有 4 类,但子指标多达几十种。
如果只是通过单人手工的方式来收集碎片数据,纯粹作为 KPI 来考量,工作量巨大,并且数据失真严重。
事实上,上述核心要素贯穿运营工作的每一个过程和每一处细节,绩效考量应该是润物细无声,工作完毕要素即能够实时保留和核算,并且每一个子目标的出具,能够便于运营团队及时发现问题,从每一个细节改进过程。
所以在超级互联网公司,一套统管运营全过程的 IT 管理系统便不可或缺。从功能上说,它集成了 IT 监控,资产管理,报警,故障修复,故障知识库等多个功能模块,在功能运转过程中,它同时兼备了数据统计的职能。
案例1:如下图所示,修复效率这项指标,您可以从其的报表页面直接获取实时生成的指标数据,客观评估您的运维水平。

案例2:甚至还可以给出一个得分。这样变成关注整个运营全生态的闭环,提供了从发现故障到解决故障的全生态功能,在其软件部署运行的过程中,也会替您实时生成实时的运营阶段全指标数据。

作者介绍
朱品燕(女)
灵犀CEO,IT圈非著名文艺女青年,十年来混迹百度,任系统部高级经理,负责百度服务器硬件研发,管理系统研发,资产管理以及供应链团队,统管百度IT基础设施交付和运营。
带领团队经历了百度基础设施演进的每一个过程,时间跨度724365*10,服务器规模跨度1K-1W-10W-50W,对IT运营有深刻理解。现创办灵犀,并就读清华EMBA。
本文来自微信 [url=]Linkedsee灵犀[/url]



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x




上一篇:专家过招:三步教你成为Zabbix配置高手
下一篇:运维本来是不受人待见的,大时代来了:为什么nagios,zabbix火了?
daisy8

写了 1530 篇文章,拥有财富 19407,被 90 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
raby 发表于 2016-7-9 21:08:06
谢谢分享!
sst14440 发表于 2016-6-29 10:37:34
学习了,虽然太深奥
Powered by ITIL  © 2001-2025
返回顶部