當前位置：首頁 >

想服务器不宕机，你了解Linux“体检”指标吗？

發布時間：2025/3/18 30 豆豆

生活随笔收集整理的這篇文章主要介紹了想服务器不宕机，你了解Linux“体检”指标吗？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

在“求佛保佑服務器不宕機”、“殺程序員祭天”的環境下，程序員每天可謂是戰戰兢兢，接到電話和短信都嚇得瑟瑟發抖，為了我們的安全，及時發現服務器運行問題已不僅僅是運維的問題了。今天總結一下常見的服務器監控指標，希望各位開發人員都搞一個腳本運行著以保障自己的生命安全。

文章經常被人爬，而且還不注明原地址，我在這里的更新和糾錯沒法同步，這里注明一下原文地址：http://www.cnblogs.com/zhenbianshu/p/7683496.html

獲取服務器信息

多臺機器同時需要監控時，每臺機器都需要運行一個監控程序，我們首先要獲取服務器的信息以分辨機器，發生問題時，也可以評估問題的嚴重性。

獲取IP

獲取內網IP：

通過ifconfig命令獲取全部的網絡信息，并排除掉本地host和ipv6信息。

/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"

注意這里要使用ifconfig的絕對路徑，因為如果監控腳本運行在 crontab 的話，執行時是不會帶有環境信息的。

獲取外網IP：

外網的IP我們可以通過請求別的網站來回顯，有一些網站提供此服務，如?ipecho.net/plain?或者我自己懶得搭建的網站：alwayscoding.net。

命令如下?curl alwayscoding.net

獲取系統信息

獲取系統信息建議使用?lsb_release -a?方法：

lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch Distributor ID: CentOS Description: CentOS release 6.5 (Final) Release: 6.5 Codename: Final

信息比較豐富，可以截取字符串中需要的部分；

CPU

CPU 負載是我們要監控的首要指標，我們常說的系統負載指的就是它，它是指一段時間內CPU處理進程數占 CPU 能處理最大進程數的比例，即一個 CPU 的最大負載是?1.0，這種情況 CPU 正好能將所有進程執行完，超出這個限制，系統會進入 over load 超載狀態，就會有進程需要等待其他進程執行結束。我們一般認為CPU負載在?0.6以下是健康狀態。

在終端上查看系統負載通常使用?top?命令，但它是交互型的，且數據較多較雜，不利于寫監控腳本，我們一般使用?uptime?通過其?average load?字段獲取最近 1分鐘、5分鐘、15分鐘的平均負載。

uptime 16:03:30 up 130 days, 23:33, 1 user, load average: 4.62, 4.97, 5.08

此時系統平均負載約為 5，不是系統已經超載，也沒有顯示錯誤，這是因為在考慮負載時還要考慮 CPU 的核心數，多核 CPU 同時能處理的進程數與其核數成正比，其最大負載不是 1，而是其 CPU 核心數 N。

我們使用?nproc?可以查看系統 CPU 核心數，我正在使用的這臺機器核心數是 16，所以其最大負載是16，平均負載是 5/16 = 0.32 ， CPU 處于健康狀態。

內存

內存是我們要監控的另外一項核心指標，內存占用率太高，無疑會導致進程無法正常分配內存執行。

我們也可以通過 top 命令查看內存占用，但監控中更常用?free?命令：

free -mtotal used free shared buffers cached Mem: 32108 18262 13846 0 487 11544 -/+ buffers/cache: 6230 25878 Swap: 0 0 0

我們首先來看 Mem 這一行，共 32108M 內存，已使用 18262M，剩余 13846，那么內存的使用率就是 18262/32108*100% = 56.88%。那么，后面的shared、buffers、cached 又是什么意思呢？

其實在 linux 中，內存的分配也是懶惰原則，在內存分配給一個進程，進程執行完畢后 linux 是不會立即清理內存的，而是把這一部分內存當作緩存存儲起來，如果此進程再啟動就不必再重新加載了；如果可用內存使用完了，則將這一部分緩存清空，重新利用。這樣來看?used 里的 buffers 和 cached 部分是隨時可被重用的，不能算作被占用。而 shared 是進程共享內存部分，會作為被占用部分，但一般較少使用，與此相關的內容，可以看文末的參考文章。

真實數據是第三行的去除 buffers 和 cache 的部分，即真正的內存使用率是?6230/(6230+25878)*100% = 19.4%。

而第四行的 swap 是用來臨時存儲內存 buffers 和 cache 的，正常情況雖然能加快進程的重啟，但物理內存較少的情況下，會引起 swap 的頻繁讀寫，增加服務器的 IO 壓力，用與不用視情況而定。

網絡

網絡在 linux 作為 web 服務器時也是一項很重要的指標，相關命令有很多，但各有所長，我們一般監控以下狀態：

使用netstat查看監聽端口。

netstat -an | grep LISTEN | grep tcp | grep 80?查看是否有進程正在監控80端口。

使用ping監控網絡連接

使用?ping?命令可以查看網絡是否連接，使用 -c 選項來控制請求次數，使用 -w 選項來控制超時時間（單位：毫秒），最后利用?&&?符號的?短路?特性來控制結果輸出:

ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"

硬盤

硬盤不是特別重要的監控指標，但在硬盤滿的時候寫文件失敗也會影響進程的正常執行。

我們使用?df?命令來查看磁盤的使用狀態，-h 會以易讀格式輸出：

df -h Filesystem Size Used Avail Use% Mounted on /dev/vda1 40G 6.0G 32G 16% / tmpfs 16G 0 16G 0% /dev/shm /dev/vdb1 296G 16G 265G 6% /data0

我們可以使用 grep 命令找到想要查詢的掛載節點，再使用 awk 命令獲取結果字段。

另外使用?du [-h] /path/to/dir [--max-depth=n]?可以查看某目錄的大小，注意使用?--max-depth=n控制遍歷深度。

運行/其他

其他的監控狀態主要包括進程錯誤日志監控，請求數監控，進程存在狀態監控等，這些可以用到一些基本命令了，如?ps等。

更詳細的信息就需要使用進程日志了，使用?grep 、awk?等命令來分析日志來獲取更詳細的信息。

總結

最后是監控結果的統計了，可以使用一般的“推”和“拉”方式，建議各機器把結果推到一臺機器上進行統計和報警。也可以使用?rsync?方式從各服務器拉取，報警方式像企業微信、短信、郵件等就按要需配置了。

最后，系統監控是個重要且需要持續關注的事情，祝大家的服務器永不宕機。

本文作者：佚名

來源：51CTO

總結

以上是生活随笔為你收集整理的想服务器不宕机，你了解Linux“体检”指标吗？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：从锁的原理到构建分布式锁
下一篇：打造LINUX系统安全(早期学习笔记)

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

想服务器不宕机，你了解Linux“体检”指标吗？

總結