如何才能成为一个SRE呢? 首先要明确什么是SRE , Site/Service Reliability Engineering ,中文的翻译就是:服务(网站)运维
顾名思义,就是一个运维人员,作为一个SRE你需要做什么呢?大致来说:
1:环境初始化,包括服务器系统安装,初始服务安装,初始安全策略配置,初始权限系统配置
2:监控初始化,包括监控的服务端,客户端,监控脚本的自定义编写,报警机制的设置
3:日常安全漏洞更新,包括各种安全漏洞的更新
4:自动化运维脚本的编写,jenkins 的集成
5:日常故障的检测及故障排除
6:值班(oncall)
7: 与客户沟通
所以,如果你想成为一个SRE, 下边的技能你需要知道(最起码知道google的时候怎么google)
1:linux 关键的基本知识: 权限,文件系统, 常用服务, 常用命令,
2:zabbix 或者同类监控软件的安装,调试,使用
3:脚本能力 shell,python
4:puppet 或者ansible 类的管理工具
5:常用的协议大体要明白,如HTTPS , DNS ,
6: Docker现在比较火,也是需要了解原理的(k8s)
7:公有云平台的使用经验(aws , 阿里云)