google 如何运行生产系统——SRE 的“50% 的项目工作时间”究竟是多少?

How google runs production systems - what's really the "50% time for project work" for SRE?

Quote:“SRE 花费了 50% 的时间。他们的剩余时间应该用于在项目工作中使用他们的编码技能。” (第 7 页)"

正在看这本书,实在看不懂

什么是“项目工作”?

是生产代码还是ansible yaml?

SRE @Google 这里。

这意味着 - SRE 应该将至少 50% 的时间用于项目工作。换句话说,SRE 最多只能将 50% 的时间用于运维工作。如果运营工作消耗超过50%,则表明相关的生产堆栈有更多的自动化空间来承担更多的项目。

运营工作包括处理 interruptions/alerts 生产、管理服务供应或任何繁重的生产工作。项目工作包括开发监控系统、创建 CI/CD 管道或部署下一代全局负载平衡器、反向代理服务器等

这是 Google 的一个关键 SRE 理念,即每个团队最多应将 50% 的时间花在运营工作上。随着服务的增长,有必要开展项目以阻止运营需求在未来不成比例地增长。项目工作旨在尽早解决问题,以免它们导致运营工作占用超过 50% 的 SRE 时间。