想服务器不宕机,你了解Linux“体检”指标吗?
前言
在“求佛保佑服務(wù)器不宕機”、“殺程序員祭天”的環(huán)境下,程序員每天可謂是戰(zhàn)戰(zhàn)兢兢,接到電話和短信都嚇得瑟瑟發(fā)抖,為了我們的安全,及時發(fā)現(xiàn)服務(wù)器運行問題已不僅僅是運維的問題了。今天總結(jié)一下常見的服務(wù)器監(jiān)控指標(biāo),希望各位開發(fā)人員都搞一個腳本運行著以保障自己的生命安全。
文章經(jīng)常被人爬,而且還不注明原地址,我在這里的更新和糾錯沒法同步,這里注明一下原文地址:http://www.cnblogs.com/zhenbianshu/p/7683496.html
獲取服務(wù)器信息
多臺機器同時需要監(jiān)控時,每臺機器都需要運行一個監(jiān)控程序,我們首先要獲取服務(wù)器的信息以分辨機器,發(fā)生問題時,也可以評估問題的嚴(yán)重性。
獲取IP
獲取內(nèi)網(wǎng)IP:
通過ifconfig命令獲取全部的網(wǎng)絡(luò)信息,并排除掉本地host和ipv6信息。
/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"
注意這里要使用ifconfig的絕對路徑,因為如果監(jiān)控腳本運行在 crontab 的話,執(zhí)行時是不會帶有環(huán)境信息的。
獲取外網(wǎng)IP:
外網(wǎng)的IP我們可以通過請求別的網(wǎng)站來回顯,有一些網(wǎng)站提供此服務(wù),如?ipecho.net/plain?或者我自己懶得搭建的網(wǎng)站:alwayscoding.net。
命令如下?curl alwayscoding.net
獲取系統(tǒng)信息
獲取系統(tǒng)信息建議使用?lsb_release -a?方法:
lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch Distributor ID: CentOS Description: CentOS release 6.5 (Final) Release: 6.5 Codename: Final信息比較豐富,可以截取字符串中需要的部分;
CPU
CPU 負載是我們要監(jiān)控的首要指標(biāo),我們常說的系統(tǒng)負載指的就是它,它是指一段時間內(nèi)CPU處理進程數(shù)占 CPU 能處理最大進程數(shù)的比例,即一個 CPU 的最大負載是?1.0,這種情況 CPU 正好能將所有進程執(zhí)行完,超出這個限制,系統(tǒng)會進入 over load 超載狀態(tài),就會有進程需要等待其他進程執(zhí)行結(jié)束。我們一般認為CPU負載在?0.6以下是健康狀態(tài)。
在終端上查看系統(tǒng)負載通常使用?top?命令,但它是交互型的,且數(shù)據(jù)較多較雜,不利于寫監(jiān)控腳本,我們一般使用?uptime?通過其?average load?字段獲取最近 1分鐘、5分鐘、15分鐘的平均負載。
uptime 16:03:30 up 130 days, 23:33, 1 user, load average: 4.62, 4.97, 5.08此時系統(tǒng)平均負載約為 5,不是系統(tǒng)已經(jīng)超載,也沒有顯示錯誤,這是因為在考慮負載時還要考慮 CPU 的核心數(shù),多核 CPU 同時能處理的進程數(shù)與其核數(shù)成正比,其最大負載不是 1,而是其 CPU 核心數(shù) N。
我們使用?nproc?可以查看系統(tǒng) CPU 核心數(shù),我正在使用的這臺機器核心數(shù)是 16,所以其最大負載是16,平均負載是 5/16 = 0.32 , CPU 處于健康狀態(tài)。
內(nèi)存
內(nèi)存是我們要監(jiān)控的另外一項核心指標(biāo),內(nèi)存占用率太高,無疑會導(dǎo)致進程無法正常分配內(nèi)存執(zhí)行。
我們也可以通過 top 命令查看內(nèi)存占用,但監(jiān)控中更常用?free?命令:
free -mtotal used free shared buffers cached Mem: 32108 18262 13846 0 487 11544 -/+ buffers/cache: 6230 25878 Swap: 0 0 0我們首先來看 Mem 這一行,共 32108M 內(nèi)存,已使用 18262M,剩余 13846,那么內(nèi)存的使用率就是 18262/32108*100% = 56.88%。那么,后面的shared、buffers、cached 又是什么意思呢?
其實在 linux 中,內(nèi)存的分配也是懶惰原則,在內(nèi)存分配給一個進程,進程執(zhí)行完畢后 linux 是不會立即清理內(nèi)存的,而是把這一部分內(nèi)存當(dāng)作緩存存儲起來,如果此進程再啟動就不必再重新加載了;如果可用內(nèi)存使用完了,則將這一部分緩存清空,重新利用。這樣來看?used 里的 buffers 和 cached 部分是隨時可被重用的,不能算作被占用。而 shared 是進程共享內(nèi)存部分,會作為被占用部分,但一般較少使用,與此相關(guān)的內(nèi)容,可以看文末的參考文章。
真實數(shù)據(jù)是第三行的去除 buffers 和 cache 的部分,即真正的內(nèi)存使用率是?6230/(6230+25878)*100% = 19.4%。
而第四行的 swap 是用來臨時存儲內(nèi)存 buffers 和 cache 的,正常情況雖然能加快進程的重啟,但物理內(nèi)存較少的情況下,會引起 swap 的頻繁讀寫,增加服務(wù)器的 IO 壓力,用與不用視情況而定。
網(wǎng)絡(luò)
網(wǎng)絡(luò)在 linux 作為 web 服務(wù)器時也是一項很重要的指標(biāo),相關(guān)命令有很多,但各有所長,我們一般監(jiān)控以下狀態(tài):
使用netstat查看監(jiān)聽端口。
netstat -an | grep LISTEN | grep tcp | grep 80?查看是否有進程正在監(jiān)控80端口。
使用ping監(jiān)控網(wǎng)絡(luò)連接
使用?ping?命令可以查看網(wǎng)絡(luò)是否連接,使用 -c 選項來控制請求次數(shù),使用 -w 選項來控制超時時間(單位:毫秒),最后利用?&&?符號的?短路?特性來控制結(jié)果輸出:
ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"
硬盤
硬盤不是特別重要的監(jiān)控指標(biāo),但在硬盤滿的時候?qū)懳募∫矔绊戇M程的正常執(zhí)行。
我們使用?df?命令來查看磁盤的使用狀態(tài),-h 會以易讀格式輸出:
df -h Filesystem Size Used Avail Use% Mounted on /dev/vda1 40G 6.0G 32G 16% / tmpfs 16G 0 16G 0% /dev/shm /dev/vdb1 296G 16G 265G 6% /data0我們可以使用 grep 命令找到想要查詢的掛載節(jié)點,再使用 awk 命令獲取結(jié)果字段。
另外使用?du [-h] /path/to/dir [--max-depth=n]?可以查看某目錄的大小,注意使用?--max-depth=n控制遍歷深度。
運行/其他
其他的監(jiān)控狀態(tài)主要包括進程錯誤日志監(jiān)控,請求數(shù)監(jiān)控,進程存在狀態(tài)監(jiān)控等,這些可以用到一些基本命令了,如?ps等。
更詳細的信息就需要使用進程日志了,使用?grep 、awk?等命令來分析日志來獲取更詳細的信息。
總結(jié)
最后是監(jiān)控結(jié)果的統(tǒng)計了,可以使用一般的“推”和“拉”方式,建議各機器把結(jié)果推到一臺機器上進行統(tǒng)計和報警。也可以使用?rsync?方式從各服務(wù)器拉取,報警方式像企業(yè)微信、短信、郵件等就按要需配置了。
最后,系統(tǒng)監(jiān)控是個重要且需要持續(xù)關(guān)注的事情,祝大家的服務(wù)器永不宕機。
本文作者:佚名
來源:51CTO
總結(jié)
以上是生活随笔為你收集整理的想服务器不宕机,你了解Linux“体检”指标吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从锁的原理到构建分布式锁
- 下一篇: [Leetcode]147. Inser