日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Google SRE 读书笔记 扒一扒SRE用的那些工具

發布時間:2023/12/9 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Google SRE 读书笔记 扒一扒SRE用的那些工具 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

寫在前面

最近花了一點時間閱讀了《SRE Goolge運維解密》這本書,對于書的內容大家可以看看豆瓣上的介紹。總體而言,這本書是首次比較系統的披露Google內部SRE運作的一些指導思想、實踐以及相關的問題,對于我們運維乃至開發人員都有一定的借鑒意義。

書中的一些思想也令我印象深刻,例如SRE工程師要保證投入50%的時間在項目上、錯誤預算、命運之輪、事故總結等等,對于從業者有很大的啟發。書中提到了很多思想,也提到了很多工具,我想不同的單位有不同的文化、制度背景,這種指導思想未必能夠執行,但是書中提到的工具,卻有被其他人利用的可能。因此,我就整理了書中提到的一些工具以及搜索是否有對應的開源工程,整理成下面的列表供大家參考。

如果大家發現有不全的,或者對于某個工具希望深入討論的,歡迎給我留言。

Google 技術棧

功能介紹產品對標的開源產品備注
分布式共識系統、分布式鎖服務Chubby 書中描述為強一致性存儲系統ZooKeeper、Consul
監控服務BorgmonPrometheus、Riemann、Heka、Bosun
Photon
分布式周期性任務系統Cron
任務分發系統,集群管理系統Borg
分布式文件系統GFS
Mesos
管理報警響應及升級規則Escalator
故障跟蹤工具(被動收集監控系統發出的所有報警信息,同時提供標記、分組和數據分析功能)Outalator
數據流水線MapReduce、Flume
大規模數據處理WorkflowSpanner ?
Incident Command System
構建系統Bazel
分布式文件系統GFS

Borg 調度服務(2003),開源產品 Kubernetes
Borg Name Service BNS 名稱解析系統
Bigtable
Blaze/Bazel 構建
Rapid 發布
Midas Pacakge Management MPM 打包
Sisyphus 發布自動化框架
Chubby 強一致性存儲系統
Prober 端到端檢測(黑盒監控 Black Box Monitoring)
Protocol Buffer (Protobuf)
Alert Manager 報警管理服務
Dapper 分布式組件跟蹤工具
Incident Command System 應急事件管理
IRC機器人
Dagger 依賴注入(Dependency Injection)工具
Protocol Buffer 數據交換格式
Auxon 自動化容量規劃
gRPC Google RPC 框架
Doorman 協作性分布式客戶端節流系統
Zipking 業務流追蹤
Stackdriver

兩點吐槽

一、繞口的翻譯
P158:一個測試系統可以檢測出一個MTTR為0的Bug。
P253:這種設計類型在服務領頭人的工作量是分片的。
P327:Google幾乎沒有處理大規模消費者產品運行不能直接控制的客戶端代碼的經驗。

二、強大的客戶端

全書各章節及小評

章節及名稱感想
1 介紹
2 Google 生產環境:SRE視角
3 擁抱風險
4 服務質量目標
5 減少瑣事
6 分布式系統的監控
7 Google 的自動化系統演進自動化的價值,自動化的層次
8 發布工程
9 簡單化
10 基于時間序列數據進行有效報警
11 on-call 輪值
12 有效的故障排查手段
13 緊急事件響應
14 緊急事故管理
15 事后總結:從失敗中學習
16 跟蹤故障
17 測試可靠性
18 SRE部門中的軟件工程實踐
19 前端服務器的負載均衡不同數據中心之間的負載均衡策略最佳實踐,基本的方案有DNS、VIP(網絡負載均衡器 F5)
20 數據中心內部的負載均衡系統從應用層面談如何進行負載均衡,如何讓各臺服務器的使用率更加均衡,避免出現閑忙不均的情況。如何更準確的識別出后端的真實狀態的方法:跛腳鴨狀態。
21 應對過載
22 處理連鎖故障
23 管理關鍵狀態:利用分布式共識來提高可靠性
24 分布式周期性任務系統
25 數據處理流水線
26 數據完整性:讀寫一致
27 可靠地進行產品的大規模發布
28 迅速培養SRE加入on-call
29 處理中斷性任務
30 通過嵌入SRE的方式幫助團隊從運維過載中恢復
31 SRE與其它團隊的溝通與協作
32 SRE參與模式的演進歷史
33 其他行業的實踐經驗
34 結語

參考資料:
1、Google Borgmon
2、Google使用Borg進行大規模集群的管理-2015
3、基于 Prometheus 的數據庫監控
4、Prometheus
5、Google Protocol Buffer 的使用和原理
6、Doorman: Global Distributed Client Side Rate Limiting
7、SRE Book notes
8、Zipkin
9、morgue 事故總結工具
10、Incident management at Google
11、TerraForm
12、

總結

以上是生活随笔為你收集整理的Google SRE 读书笔记 扒一扒SRE用的那些工具的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。