
元数据
元数据
[!abstract] SRE:Google运维解密
SRE:Google运维解密|200 - 书名: SRE:Google运维解密
- 作者: 贝特西·拜尔等
- 简介: 在本书中,不仅展示了 Google 是如何运用各种计算机工具软件、硬件以持续部署和监控一些世界上最大的软件系统的。还展示了在运维过程中,Google 工程师团队是如何学习、成长、反复修改,最后定义出一套完整的工具和科技体系的过程。本书适合各种水平的运维工程师参考使用。
- 出版时间: 2016-10-01 00:00:00
- ISBN: 9787121297267
- 分类: 计算机-计算机综合
- 出版社: 电子工业出版社
- PC地址:https://weread.qq.com/web/reader/72c323007190dfe972c1295
高亮划线
服务质量术语
📌 SLI是指服务质量指标(indicator)—该服务的某项服务质量的一个具体量化指标。
⏱ 2022-05-05 17:12:37 ^26271721-29-654-725
📌 SLO是服务质量目标(Objective):服务的某个SLI的目标值,或者目标范围。
⏱ 2022-05-05 17:12:58 ^26271721-29-1581-1651
📌 SLA是服务质量协议(Agreement):指服务与用户之间的一个明确的,或者不明确的协议,描述了在达到或者没有达到SLO之后的后果
⏱ 2022-05-05 17:13:38 ^26271721-29-3167-3261
指标在实践中的应用
📌 四五个具有代表性的指标对系统健康程度的评估和关注就足够了
⏱ 2022-05-05 17:17:28 ^26271721-30-721-749
什么算作工程工作
📌 本质上需要主观判断的工作
⏱ 2022-06-10 07:26:57 ^26271721-36-488-500
琐事繁多是不是一定不好
📌 已知的和重复性的工作有一种让人平静的功效
⏱ 2022-06-13 08:36:40 ^26271721-37-492-512
监控系统的长期维护
📌 监控系统需要跟随不断演变的软件一起变化
⏱ 2022-06-21 07:24:29 ^26271721-50-474-493
📌 团队临时将SLO目标降低
⏱ 2022-06-21 07:32:51 ^26271721-50-1297-1309
📌 请求延迟的75%百分位作为SLI
⏱ 2022-06-21 07:33:00 ^26271721-50-1313-1329
📌 关闭了E-mail警报
⏱ 2022-06-21 07:33:05 ^26271721-50-1332-1343
📌 on-call工程师可以真正做一些事情,而不是整天被紧急警报打断
⏱ 2022-06-21 07:32:36 ^26271721-50-1456-1488
📌 会使得真正的修复优先级无限降低 ^26271721-50-2164-2179
- 💭 因为有一个可执行的方案了,另外一个方案就会被降低 - ⏱ 2022-06-21 07:40:39
📌 在紧急警报带来的压力减轻之后应该继续支持和优先处理那些长期修复问题的工作
⏱ 2022-06-21 07:41:42 ^26271721-50-2236-2272
📌 不相信未来能够处理这些技术债务
⏱ 2022-06-21 07:42:10 ^26271721-50-2358-2373
📌 短期与长期的可用性的冲突。经常,通过一些“暴力”因素,可以使一个摇摇晃晃的系统保持一定的高可用性。但是这种方案通常是不能持久的,而且这经常依赖于某个团队成员的个人英雄主义。短期内,接受某种可控的可用性的降低可以换取一些系统长期性的提升。
⏱ 2022-06-21 07:45:09 ^26271721-50-2500-2618
读书笔记
将上述理念整合起来
划线评论
📌 每个紧急警报都应该是关于某个新问题的,不应该彼此重叠 ^37992928-7AaI7eMh4
- 💭 这个地方没看懂,紧急警报可能会针对同一个问题触发多次,为什么不会彼此重叠呢?
- ⏱ 2022-06-21 07:21:24
监控系统的长期维护
划线评论
📌 会使得真正的修复优先级无限降低 ^37992928-7AaJpsm8y
- 💭 因为有一个可执行的方案了,另外一个方案就会被降低
- ⏱ 2022-06-21 07:41:09