前言 作为一名SRE每天都要在故障的第一线。要时刻准备应对宕机、复杂的故障场景以及其他突发性技术问题,即便没有故障,也要讨论故障。需要定期进行事后检讨和根因分析,面对技术问题,不光要深入研究也要永不妥协。 在LinkedIn, SRE文化和产品一样重要。但给团队和公司规划一个明确的文化蓝图要更难。如果有明确的方法论,就不会看到如此多的技术问题了,如技术的多样性和包容性。虽然现在很多公司都希望创建一个积极向上的SRE文化,但却无从下手。 LinkedIn SRE文化经验 没有一套标准的解决方案和模板去契合所有公司来创建SRE文化,LinkedIn文化独一无二的原因是让工程师感到重视和秉承“英雄不问出处”的态度,当然也不仅仅如此 。 本文将分享最近几年LinkedIn做出的积极转变——包容的文化、日常维护中的讨论等等。虽然这不是一个完善的指导方案,但也希望这些想法和经验能帮助有需求的企业推动 SRE尽快落地。 早期:救火
在LinkedIn SRE团队创建之初,并不叫SRE。所担任的角色更多是救火队、传统意义上的运维与发布管理等,只关心任务完成度,没有“文化”可言。但在快速发展时,LinkedIn网站受到了可靠性问题的困扰,让团队时刻保持着警惕,在此期间团队也并没有停止思考文化、技术以及其他问题。 在危急关头,终于决定团队要作出一些重大的改变以应对产品上的问题。所以以保证网站持续运行为目标,重组了团队。且结合这一使命,以主人翁的态度全心全意地为整个项目负责。用“匠心”去执行每一道工序。 这个改革很大程度上是成功的,网站更稳定,通过软件去解决问题而不是人和既定程序。 弥补文化债务 技术发展快,因此在招聘和管理过程中,技术能力高于一切,但是并未考虑应聘者是否打算在此长期发展。过于看重技术能力可以获得短期成果,依靠这种方法,聘到了许多很有才华的工程师。但缺陷也随之而来,团队间没有很好的协同合作,让一个完整的运维体系变得更加困难,某种程度上甚至建立了一个负面的工作氛围。 这就好比在一个“长寿”代码库上高筑技术债务,让团队意识到需要另一个转变。为了解决LinkedIn的“文化债务”,人、思想、乃至SRE的运行过程都在慢慢的发生改变。
人 2013年,LinkedIn投入了大量的精力来规范和改进SRE的面试流程,希望工程师在有技术能力的同时也要有协作精神。在这段成熟的招聘中,多达百人想进入SRE团队,这与早期寥寥数人相比简直是天壤之别。在还是小团队的时候并不注重合作能力,随着团队扩充,合作已经变成技术工作中的必备技能。 伴随团队成长,伙伴们相互的交流合作自然而然的加强了团队关系。这意味着真诚地协作会让大家在情感上产生共鸣,从而不会多考虑变动工作。 理念 SRE早期的业务主管David Henke提出了“对事不对人”的理念。SRE的工作就是不断识别和处理故障、BUG。这是需要团队所有人都去面对的,转变心态让“不是我的问题”变为“这是我们的问题”使大家一起去解决某个问题。 过程
现在LinkedIn的SRE团队由数百个不同地域的工程师组成,消除文化边界是有挑战性的。维持良好的氛围,让每个人都懂得合作的重要性和文化的包容性,可以给工作加分,而通过每日会议来加强共同价值观就是其中的方法之一。 每天SRE的负责人和任何参加会议的人,都会回顾过去24小时内网站可靠性问题且提出每个事件要预防和维护的措施。在讨论时,力求不仅要从技术角度也要从文化角度去发声。 如有推脱行为,会明确追究的是问题本身而不是某个人;再如宕机,由于沟通不足而导致,也会去强调这是团队有待加强团结协作的问题。 这些会议的关键是从来不会将观点单独讨论,而是融入到当天的议题当中去(故障、 反复出现的BUG等。)将工作与文化相结合,两者是一致的。 总结
以上仍有很多不足等待着去完善,但让一些SRE感到了尊重与平等,朝着正确的方向去发展,希望上面的例子让大家能意识到文化和技术是紧密结合在一起的,每日遵循这个价值观,可以帮助创建组织文化(Bruno Connelly原创)
|