日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

通过滴滴技术博客:探寻造成此次P0故障的真正原因

發布時間:2023/11/30 windows 34 coder
生活随笔 收集整理的這篇文章主要介紹了 通过滴滴技术博客:探寻造成此次P0故障的真正原因 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2023年11月27日晚至2023年11月28日早晨,滴滴發生了長達12小時的P0級故障,導致滴滴核心業務都受到了影響,比如不顯示定位無法打車、滴滴單車無法掃碼等問題,期間滴滴進行了多次致歉

目前問題故障已經恢復,根據最新的消息得知造成此次事故的原因,是由于升級K8S 集群導致

那么在K8s升級過程中,遇到了那些問題,我們可以從滴滴彈性云基于 K8S 的調度實踐 文章中看出一些原因

1. 集群體量大

最大集群規模已經遠遠超出了社區推薦的5千個 node 上限,有問題的爆炸半徑大;

2. 版本升級跨度大

直接從1.12 升級到了1.20,跨越多個版本,有可能存在api不兼容的問題

3. 升級方式應該選擇了原地升級

雖然滴滴有能力基于K8S二次開發,但是由于版本跨度較大,細節點較多,原地升級風險我覺得比替換升級
大不少。

比如集群版本已經升級為1.20,但是Node節點的kubelet的版本還是 1.12,如果api不兼容,那么這個影響是非常大的,集群回滾又沒有那么快。

基于以上三點P0故障就這樣產生了,至于為什么不采用替換升級方式?

作者認為替換升級需要業務系統配合,推進難

通常情況下,替換升級的風險最小,因為一旦出現問題,可以及時回滾,然而這種方式需要與業務系統進行配合改造。

對于像滴滴這樣規模巨大的業務,讓每個業務方逐一配合是非常困難的(也可能業務方核心人員被降本增效了)。

同時,如果替換升級出現問題,業務方也有一定的責任,因此干脆由運維團隊來負責這個任務可能更為合適。

總結

以上是生活随笔為你收集整理的通过滴滴技术博客:探寻造成此次P0故障的真正原因的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。