Linux 运维故障排查思路,有这篇文章就够了
生活随笔
收集整理的這篇文章主要介紹了
Linux 运维故障排查思路,有这篇文章就够了
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 背景
有時候會遇到一些疑難雜癥,并且監控插件并不能一眼立馬發現問題的根源。這時候就需要登錄服務器進一步深入分析問題的根源。那么分析問題需要有一定的技術經驗積累,并且有些問題涉及到的領域非常廣,才能定位到問題。所以,分析問題和踩坑是非常鍛煉一個人的成長和提升自我能力。如果我們有一套好的分析工具,那將是事半功倍,能夠幫助大家快速定位問題,節省大家很多時間做更深入的事情。
2. 說明
本篇文章主要介紹各種問題定位的工具以及會結合案例分析問題。
3. 分析問題的方法論
套用5W2H方法,可以提出性能分析的幾個問題
-
What-現象是什么樣的
-
When-什么時候發生
-
Why-為什么會發生
-
Where-哪個地方發生的問題
-
How much-耗費了多少資源
-
How to do-怎么解決問題
4. cpu
4.1 說明
針對應用程序,我們通常關注的是內核CPU調度器功能和性能。
線程的狀態分析主要是分析線程的時間用在什么地方,而線程狀態的分類一般分為:
on-CPU:執行中,執行中的時間通常又分為用戶態時間user和系統態時間sys。
off-CPU:等待下一輪上CPU,或者等待I/O、鎖、換頁等等,其狀態可以細分為可執行、匿名換頁、睡眠、鎖、空閑等狀態。
如果大量時間花在CPU上,對CPU的剖析能夠迅速解釋原因;如果系統時間大量處于off-cpu狀態,定位問題就會費時
總結
以上是生活随笔為你收集整理的Linux 运维故障排查思路,有这篇文章就够了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从无到有算法养成篇-算法基础常识
- 下一篇: 基于依存句法分析的关键短语抽取算法实战