通过滴滴技术博客:探寻造成此次P0故障的真正原因
2023年11月27日晚至2023年11月28日早晨,滴滴發生了長達12小時的P0級故障,導致滴滴核心業務都受到了影響,比如不顯示定位無法打車、滴滴單車無法掃碼等問題,期間滴滴進行了多次致歉
目前問題故障已經恢復,根據最新的消息得知造成此次事故的原因,是由于升級K8S 集群導致
那么在K8s升級過程中,遇到了那些問題,我們可以從滴滴彈性云基于 K8S 的調度實踐 文章中看出一些原因
1. 集群體量大
最大集群規模已經遠遠超出了社區推薦的5千個 node 上限,有問題的爆炸半徑大;
2. 版本升級跨度大
直接從1.12 升級到了1.20,跨越多個版本,有可能存在api不兼容的問題
3. 升級方式應該選擇了原地升級
雖然滴滴有能力基于K8S二次開發,但是由于版本跨度較大,細節點較多,原地升級風險我覺得比替換升級
大不少。
比如集群版本已經升級為1.20,但是Node節點的kubelet的版本還是 1.12,如果api不兼容,那么這個影響是非常大的,集群回滾又沒有那么快。
基于以上三點P0故障就這樣產生了,至于為什么不采用替換升級方式?
作者認為替換升級需要業務系統配合,推進難
通常情況下,替換升級的風險最小,因為一旦出現問題,可以及時回滾,然而這種方式需要與業務系統進行配合改造。
對于像滴滴這樣規模巨大的業務,讓每個業務方逐一配合是非常困難的(也可能業務方核心人員被降本增效了)。
同時,如果替換升級出現問題,業務方也有一定的責任,因此干脆由運維團隊來負責這個任務可能更為合適。
總結
以上是生活随笔為你收集整理的通过滴滴技术博客:探寻造成此次P0故障的真正原因的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习 - 似然函数:概念、应用与代码
- 下一篇: 聊聊卷积神经网络CNN