當前位置：首頁 > 运维知识 > windows >内容正文

windows

系统性能监控

發布時間：2024/9/30 windows 42 豆豆

生活随笔收集整理的這篇文章主要介紹了系统性能监控小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

http://blog.csdn.net/ithomer/article/details/6129177

top進入視圖

top視圖 01

【top視圖 01】是剛進入top的基本視圖，我們來結合這個視圖講解各個數據的含義。

第一行：
10:01:23 — 當前系統時間
126 days, 14:29 — 系統已經運行了126天14小時29分鐘（在這期間沒有重啟過）
2 users — 當前有2個用戶登錄系統
load average: 1.15, 1.42, 1.44 — load average后面的三個數分別是1分鐘、5分鐘、15分鐘的負載情況。

load average數據是每隔5秒鐘檢查一次活躍的進程數，然后按特定算法計算出的數值。如果這個數除以邏輯CPU的數量，結果高于5的時候就表明系統在超負荷運轉了。

第二行：
Tasks — 任務（進程），系統現在共有183個進程，其中處于運行中的有1個，182個在休眠（sleep），stoped狀態的有0個，zombie狀態（僵尸）的有0個。

第三行：cpu狀態
6.7% us — 用戶空間占用CPU的百分比。
0.4% sy — 內核空間占用CPU的百分比。
0.0% ni — 改變過優先級的進程占用CPU的百分比
92.9% id — 空閑CPU百分比
0.0% wa — IO等待占用CPU的百分比
0.0% hi — 硬中斷（Hardware IRQ）占用CPU的百分比
0.0% si — 軟中斷（Software Interrupts）占用CPU的百分比

在這里CPU的使用比率和windows概念不同，如果你不理解用戶空間和內核空間，需要充充電了。

第四行：內存狀態
8306544k total — 物理內存總量（8GB）
7775876k used — 使用中的內存總量（7.7GB）
530668k free — 空閑內存總量（530M）
79236k buffers — 緩存的內存量（79M）

第五行：swap交換分區
2031608k total — 交換區總量（2GB）
2556k used — 使用的交換區總量（2.5M）
2029052k free — 空閑交換區總量（2GB）
4231276k cached — 緩沖的交換區總量（4GB）

這里要說明的是不能用windows的內存概念理解這些數據，如果按windows的方式此臺服務器“危矣”：8G的內存總量只剩下530M的可用內存。Linux的內存管理有其特殊性，復雜點需要一本書來說明，這里只是簡單說點和我們傳統概念（windows）的不同。

第四行中使用中的內存總量（used）指的是現在系統內核控制的內存數，空閑內存總量（free）是內核還未納入其管控范圍的數量。納入內核管理的內存不見得都在使用中，還包括過去使用過的現在可以被重復利用的內存，內核并不把這些可被重新使用的內存交還到free中去，因此在linux上free內存會越來越少，但不用為此擔心。

如果出于習慣去計算可用內存數，這里有個近似的計算公式：第四行的free + 第四行的buffers + 第五行的cached，按這個公式此臺服務器的可用內存：530668+79236+4231276 = 4.7GB。

Mem: ?65981420k total, 58765916k used, ?7215504k free, ? ?73828k buffers
? ? ? ?Swap: ?8393952k total, ?5999084k used, ?2394868k free, 24735212k cached

也可以用free查看內存剩余：

? ? ? ? ? ? ?total ? ? ? used ? ? ? free ? ? shared ? ?buffers ? ? cached
Mem: ? ? ?65981420 ? 58916032 ? ?7065388 ? ? ? ? ?0 ? ? ?75036 ? 24772128
-/+ buffers/cache: ? 34068868 ? 31912552
Swap: ? ? ?8393952 ? ?5999084 ? ?2394868

?31912552 =?7065388 +?75036 + ? 24772128

對于內存監控，在top里我們要時刻監控第五行swap交換分區的used，如果這個數值在不斷的變化，說明內核在不斷進行內存和swap的數據交換，這是真正的內存不夠用了。

第六行是空行

第七行以下：各進程（任務）的狀態監控
PID — 進程id
USER — 進程所有者
PR — 進程優先級
NI — nice值。負值表示高優先級，正值表示低優先級
VIRT — 進程使用的虛擬內存總量，單位kb。VIRT=SWAP+RES
RES — 進程使用的、未被換出的物理內存大小，單位kb。RES=CODE+DATA
SHR — 共享內存大小，單位kb
S — 進程狀態。D=不可中斷的睡眠狀態 R=運行 S=睡眠 T=跟蹤/停止 Z=僵尸進程
%CPU — 上次更新到現在的CPU時間占用百分比
%MEM — 進程使用的物理內存百分比
TIME+ — 進程使用的CPU時間總計，單位1/100秒
COMMAND — 進程名稱（命令名/命令行）

多U多核CPU監控

在top基本視圖中，按鍵盤數字“1”，可監控每個邏輯CPU的狀況：

top視圖 02

觀察上圖，服務器有16個邏輯CPU，實際上是4個物理CPU。

cat /proc/cpuinfo可以看到實際的物理cpu數目

us??--??User CPU time
??????????The time the CPU has spent running users' processes that are not niced.

??????????非nice過的用戶程序所占用的百分比。

sy??--??System CPU time
??????????The time the CPU has spent running the kernel and its processes.

??????????kernel和系統調用所占用的百分比。

ni??--??Nice CPU time
??????????The time the CPU has spent running users' proccess that have been niced.

??????????被nice過的用戶程序所占百分比。

wa??--??iowait
??????????Amount of time the CPU has been waiting for I/O to complete.

??????????等待IO操作時所占百分比。

hi??--??Hardware IRQ
??????????The amount of time the CPU has been servicing hardware interrupts.

??????????處理硬件中斷所用百分比。

si??--??Software Interrupts
??????????The amount of time the CPU has been servicing software interrupts.

??????????處理軟件中斷所用百分比。

st??--??Steal Time
??????????The amount of CPU 'stolen' from this virtual machine by the hypervisor for other tasks (such as running??another??vir鈥?
??????????tual machine).

id表示cpu空閑率，越高越好

us用戶使用cpu時間

wa是等待IO操作的比率，越低越好

?使用vmstat查看CPU狀況：

使用top查看cpu狀態時，可以看到CPU在哪些狀態下占用較多。以及哪些Process占用較多CPU。

而使用vmstat查看，在CPU實用方面，則有其它信息可看。

$vmstat 1????//每隔1s 輸出一次結果

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
?r??b???swpd???free???buff??cache???si???so????bi????bo???in???cs?us sy id wa st

CPU項目下的：us sy id wa st與top下的相似。

procs下則有幾項有新意：

r:in?run?queue

b:blocked?for?resources?I/O,?paging?etc

如果r 的值持續較大，且連續超過CPU Core的數量，則表明CPU資源嚴重不足，有很多process在等待CPU, CPU計算能力已經成為瓶頸。

2. 查看其它IO負載：

當使用top或者vmstat發現CPU wa時間多時。 vmstat中發現b列一直比較大的話（超過CPU Core）。則表明IO性能不佳。

進程字段排序

默認進入top時，各進程是按照CPU的占用量來排序的，在【top視圖 01】中進程ID為14210的java進程排在第一（cpu占用100%），進程ID為14183的java進程排在第二（cpu占用12%）。可通過鍵盤指令來改變排序字段，比如想監控哪個進程占用MEM最多，我一般的使用方法如下：

1. 敲擊鍵盤“b”（打開/關閉加亮效果），top的視圖變化如下：

top視圖 03

我們發現進程id為10704的“top”進程被加亮了，top進程就是視圖第二行顯示的唯一的運行態（runing）的那個進程，可以通過敲擊“y”鍵關閉或打開運行態進程的加亮效果。

2. 敲擊鍵盤“x”（打開/關閉排序列的加亮效果），top的視圖變化如下：

top視圖 04

可以看到，top默認的排序列是“%CPU”。

3. 通過”shift + >”或”shift + <”可以向右或左改變排序列，下圖是按一次”shift + >”的效果圖：

top視圖 05

視圖現在已經按照%MEM來排序了。

改變進程顯示字段

1. 敲擊“f”鍵，top進入另一個視圖，在這里可以編排基本視圖中的顯示字段：

top視圖 06

這里列出了所有可在top基本視圖中顯示的進程字段，有”*”并且標注為大寫字母的字段是可顯示的，沒有”*”并且是小寫字母的字段是不顯示的。如果要在基本視圖中顯示“CODE”和“DATA”兩個字段，可以通過敲擊“r”和“s”鍵：

top視圖 07

2. “回車”返回基本視圖，可以看到多了“CODE”和“DATA”兩個字段：

top視圖 08

top命令的補充

top命令是Linux上進行系統監控的首選命令，但有時候卻達不到我們的要求，比如當前這臺服務器，top監控有很大的局限性。這臺服務器運行著websphere集群，有兩個節點服務，就是【top視圖 01】中的老大、老二兩個java進程，top命令的監控最小單位是進程，所以看不到我關心的java線程數和客戶連接數，而這兩個指標是java的web服務非常重要的指標，通常我用ps和netstate兩個命令來補充top的不足。

監控java線程數：
ps -eLf | grep java | wc -l

監控網絡客戶連接數：
netstat -n | grep tcp | grep 偵聽端口 | wc -l

上面兩個命令，可改動grep的參數，來達到更細致的監控要求。

在Linux系統“一切都是文件”的思想貫徹指導下，所有進程的運行狀態都可以用文件來獲取。系統根目錄/proc中，每一個數字子目錄的名字都是運行中的進程的PID，進入任一個進程目錄，可通過其中文件或目錄來觀察進程的各項運行指標，例如task目錄就是用來描述進程中線程的，因此也可以通過下面的方法獲取某進程中運行中的線程數量（PID指的是進程ID）：

ls /proc/PID/task | wc -l

在linux中還有一個命令pmap，來輸出進程內存的狀況，可以用來分析線程堆棧：

pmap PID

負載均值在 uptime 或者 top 命令中可以看到，它們可能會顯示成這個樣子：

　　load average: 0.09, 0.05, 0.01

　　很多人會這樣理解負載均值：三個數分別代表不同時間段的系統平均負載（一分鐘、五分鐘、以及十五分鐘），它們的數字當然是越小越好。數字越高，說明服務器的負載越大，這也可能是服務器出現某種問題的信號。

　　而事實不完全如此，是什么因素構成了負載均值的大小，以及如何區分它們目前的狀況是 “好”還是“糟糕”？什么時候應該注意哪些不正常的數值？

　　回答這些問題之前，首先需要了解下這些數值背后的些知識。我們先用最簡單的例子說明，一臺只配備一塊單核處理器的服務器。

　　行車過橋

　　一只單核的處理器可以形象得比喻成一條單車道。設想下，你現在需要收取這條道路的過橋費 - 忙于處理那些將要過橋的車輛。你首先當然需要了解些信息，例如車輛的載重、以及還有多少車輛正在等待過橋。如果前面沒有車輛在等待，那么你可以告訴后面的司機通過。如果車輛眾多，那么需要告知他們可能需要稍等一會。

　　因此，需要些特定的代號表示目前的車流情況，例如：

　　0.00 表示目前橋面上沒有任何的車流。實際上這種情況與 0.00 和 1.00 之間是相同的，總而言之很通暢，過往的車輛可以絲毫不用等待的通過。

　　1.00 表示剛好是在這座橋的承受范圍內。這種情況不算糟糕，只是車流會有些堵，不過這種情況可能會造成交通越來越慢。

　　超過 1.00，那么說明這座橋已經超出負荷，交通嚴重的擁堵。那么情況有多糟糕？例如 2.00 的情況說明車流已經超出了橋所能承受的一倍，那么將有多余過橋一倍的車輛正在焦急的等待。3.00 的話情況就更不妙了，說明這座橋基本上已經快承受不了，還有超出橋負載兩倍多的車輛正在等待。

　　上面的情況和處理器的負載情況非常相似。一輛汽車的過橋時間就好比是處理器處理某線程的實際時間。Unix?系統定義的進程運行時長為所有處理器內核的處理時間加上線程在隊列中等待的時間。

　　和收過橋費的管理員一樣，你當然希望你的汽車（操作）不會被焦急的等待。所以，理想狀態下，都希望負載平均值小于 1.00 。當然不排除部分峰值會超過 1.00，但長此以往保持這個狀態，就說明會有問題，這時候你應該會很焦急。

　　“所以你說的理想負荷為 1.00 ？”

　　嗯，這種情況其實并不完全正確。負荷 1.00 說明系統已經沒有剩余的資源了。在實際情況中，有經驗的系統管理員都會將這條線劃在 0.70：

　　“需要進行調查法則”：如果長期你的系統負載在 0.70 上下，那么你需要在事情變得更糟糕之前，花些時間了解其原因。

　　“現在就要修復法則”：1.00 。如果你的服務器系統負載長期徘徊于 1.00，那么就應該馬上解決這個問題。否則，你將半夜接到你上司的電話，這可不是件令人愉快的事情。

　　“凌晨三點半鍛煉身體法則”：5.00。如果你的服務器負載超過了 5.00 這個數字，那么你將失去你的睡眠，還得在會議中說明這情況發生的原因，總之千萬不要讓它發生。

　　那么多個處理器呢？我的均值是 3.00，但是系統運行正常！

　　哇喔，你有四個處理器的主機？那么它的負載均值在 3.00 是很正常的。

　　在多處理器系統中，負載均值是基于內核的數量決定的。以 100% 負載計算，1.00 表示單個處理器，而 2.00 則說明有兩個雙處理器，那么 4.00 就說明主機具有四個處理器。

　　回到我們上面有關車輛過橋的比喻。1.00 我說過是“一條單車道的道路”。那么在單車道 1.00 情況中，說明這橋梁已經被車塞滿了。而在雙處理器系統中，這意味著多出了一倍的負載，也就是說還有 50% 的剩余系統資源 - 因為還有另外條車道可以通行。

　　所以，單處理器已經在負載的情況下，雙處理器的負載滿額的情況是 2.00，它還有一倍的資源可以利用。

　　多核與多處理器

　　先脫離下主題，我們來討論下多核心處理器與多處理器的區別。從性能的角度上理解，一臺主機擁有多核心的處理器與另臺擁有同樣數目的處理性能基本上可以認為是相差無幾。當然實際情況會復雜得多，不同數量的緩存、處理器的頻率等因素都可能造成性能的差異。

　　但即便這些因素造成的實際性能稍有不同，其實系統還是以處理器的核心數量計算負載均值。這使我們有了兩個新的法則：

　　“有多少核心即為有多少負荷”法則：在多核處理中，你的系統均值不應該高于處理器核心的總數量。

　　“核心的核心”法則：核心分布在分別幾個單個物理處理中并不重要，其實兩顆四核的處理器等于四個雙核處理器等于八個單處理器。所以，它應該有八個處理器內核。

　　審視我們自己

　　讓我們再來看看 uptime 的輸出

　　~ $ uptime

　　23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36

　　這是個雙核處理器，從結果也說明有很多的空閑資源。實際情況是即便它的峰值會到 1.7，我也從來沒有考慮過它的負載問題。

　　那么，怎么會有三個數字的確讓人困擾。我們知道，0.65、0.42、0.36 分別說明上一分鐘、最后五分鐘以及最后十五分鐘的系統負載均值。那么這又帶來了一個問題：

　　我們以哪個數字為準？一分鐘？五分鐘？還是十五分鐘？

　　其實對于這些數字我們已經談論了很多，我認為你應該著眼于五分鐘或者十五分鐘的平均數值。坦白講，如果前一分鐘的負載情況是 1.00，那么仍可以說明認定服務器情況還是正常的。但是如果十五分鐘的數值仍然保持在 1.00，那么就值得注意了（根據我的經驗，這時候你應該增加的處理器數量了）。

總結

以上是生活随笔為你收集整理的系统性能监控的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： android Activity布局初步
下一篇： windows7出现MTP usb设备驱

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

系统性能监控

總結