敬畏生产环境
生產(chǎn)環(huán)境即是運(yùn)行用戶正在使用的系統(tǒng)環(huán)境。有時(shí),一些粗心的用戶會(huì)把他們的生產(chǎn)環(huán)境交給我們,希望我們來進(jìn)行變更操作,如部署Agent等。但我們實(shí)際上并不清楚這些生產(chǎn)環(huán)境有多重要,有時(shí)也不清楚我們的變更操作有多危險(xiǎn),其中一些操作很可能導(dǎo)致機(jī)器宕機(jī),出現(xiàn)重大生產(chǎn)事故,讓用戶受到重大損失。
所以我們對(duì)生產(chǎn)環(huán)境需要敬畏,本文羅列出一些禁忌操作,需要大家一定要避免的。
禁忌操作
替換系統(tǒng)文件
系統(tǒng)文件包括:
系統(tǒng)文件的替換隱含了極大的風(fēng)險(xiǎn),以下是運(yùn)維中發(fā)生的一個(gè)實(shí)際故障:
在部署Agent時(shí),由于執(zhí)行時(shí)報(bào)libc.so相關(guān)的錯(cuò)誤,操作人員就從其它機(jī)器復(fù)制了一個(gè)libc.so到目標(biāo)服務(wù)器。
由于libc.so替換,導(dǎo)致依賴libc.so的所有程序,包含ksh、sshd等系統(tǒng)程序均無法啟動(dòng)。
由于這臺(tái)AIX服務(wù)器已經(jīng)幾年沒有重啟過一次了,經(jīng)過協(xié)調(diào),大家在承擔(dān)極大風(fēng)險(xiǎn)的情況下,使用光盤引導(dǎo)并恢復(fù)libc.so后才恢復(fù)了系統(tǒng)。
部署或升級(jí)系統(tǒng)包
包括:
這些操作與替換系統(tǒng)文件的風(fēng)險(xiǎn)是一樣的。以下也是一個(gè)我們操作導(dǎo)致的實(shí)際故障:
在部署Agent需要的ipmitool命令時(shí),由于需要一些依賴的rpm包,操作人員就將相關(guān)的包復(fù)制到目標(biāo)機(jī)器并部署。
由于包中包含了ssl等系統(tǒng)包,導(dǎo)致目標(biāo)機(jī)器上的跳板程序(依賴舊版本ssl包)無法啟動(dòng)。
最后經(jīng)過商務(wù)協(xié)調(diào),用戶自己重裝了跳板機(jī)來恢復(fù)。
此案例中,盡管操作人員已經(jīng)在公司內(nèi)部作過同樣的測(cè)試并部署成功,但依然在生產(chǎn)環(huán)境中導(dǎo)致了故障。因?yàn)樯a(chǎn)環(huán)境確實(shí)有其歷史,其中的細(xì)節(jié)是我們無法在短時(shí)間內(nèi)了解并評(píng)估出風(fēng)險(xiǎn)的。
所以對(duì)生產(chǎn)環(huán)境要敬畏。
rm -rf 命令
這個(gè)操作的危險(xiǎn)性在于,有時(shí)我們會(huì)疲勞駕駛,我們以為我們?cè)谧鍪裁?#xff0c;但實(shí)際上只是機(jī)械性的快速敲打鍵盤,結(jié)果一不小心就輸入了:
rm -rf / <回車>
這樣的操作。
2017年初的Gitlab誤刪300GB的事故,就是疲勞駕駛rm引起。
重啟系統(tǒng)
在生產(chǎn)環(huán)境中,看似無害的重啟系統(tǒng),實(shí)際上風(fēng)險(xiǎn)很大。最好清楚這些系統(tǒng)的實(shí)際情況,并與有關(guān)方面溝通。
提倡操作
不使用root用戶
拒絕他人提供的root用戶,可以杜絕自己背鍋的可能性。不使用root用戶,就避免了無意的禁忌操作。
使用綠色軟件
運(yùn)維程序不同于生產(chǎn)系統(tǒng),它是輔助系統(tǒng),所以我們部署的運(yùn)維產(chǎn)品或工具,都應(yīng)以綠色軟件的思路開發(fā)與部署,避免對(duì)系統(tǒng)產(chǎn)生變更。
總結(jié)
- 上一篇: java 中数组与list_Java中L
- 下一篇: 五家共井java_算法练习02:五家共井